AI
-
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... )AI/NLP 2024. 4. 22. 10:26
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... ) Absolute Positional Encoding (APE) Vanilla Transformer 모델에서 input sequence의 순서 정보를 유지하기 위해서 사용 RNN 계열과 달리 Transformer 구조는 모든 input token이 병렬적으로 들어가기 때문에 positional information이 없으면 input token들은 그냥 BoW처럼 취급된다 위와 같이, encoder와 decoder stack 이전에 들어갈 input embedding들에 element-wise addition을 해준다 Vanilla Transformer 모델에서는 Sine과 Cosine 함수..
-
LLM Tokenization 방법 정리 (BytePair, Byte-level BPE, WordPiece, Unigram, SentencePiece)AI/NLP 2024. 4. 22. 10:25
LLM Tokenization 방법 정리(BytePair, Byte-level BPE, WordPiece, Unigram, SentencePiece) Tokenization이란 input text sequence를 Token이라는 더 작은 부분으로 변환하는 과정이다 가장 단순한 Tokenization 방법은 공백을 기준으로 나누는 거겠지만, 이는 OOV(out of vocabulary) 문제를 일으킨다 이 문제를 해결하기 위해 Subword 기반의 Tokenization를 많이 사용하고 있으며, 이때 훈련 데이터에 없는 단어 등 기존에 보지 못했던 단어들에 대해서도 유연하게 대처할 수 있다 Tokenizer가 중요한 이유 토크나이저는 텍스트 처리의 첫 단계로, 그 정확성과 효율성이 전체 모델의..
-
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )AI/NLP 2024. 4. 22. 10:23
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원칙에 맞추어 조정하는 과정 인간의 윤리적 기준, 사회적 가치, 그리고 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함 이런 Alignment를 잘 수행하기 위해 인간의 행동을 더 잘 반영하는 Loss Function들이 제시되었는데 이를 Human-Aware Loss Function (HALOs)라고 한다 PPO, DPO, MTO 등이 여기에 해당한다 Reinforcement Learning with Human Feedback (RLHF) / Reinforcement learning from AI feedback (RLAIF) 3 Step으로 수행 Step 1..
-
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)AI/Speech 2024. 2. 8. 10:07
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018) CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습 시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨 우리가 원하는 주파수 ..
-
[ASR Study] 2. Acoustic Feature Extraction - Fourier Transform과 MFCCAI/Speech 2024. 1. 13. 23:10
[ASR Study] 2. Acoustic Feature Extraction - Fourier Transform과 MFCC MFCC 기존 시스템은 물론 최근 엔드투엔드(end-to-end) 기반 모델에 이르기까지 음성 인식 시스템에 널리 쓰이는 피처 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 것 뉴럴네트워크 기반 피처 추출 방식과는 달리 음성 도메인의 지식과 공식에 기반한 추출 방법 음성 입력이 주어지면 피처가 고정된(deterministic) 형태 푸리에 변환(Fourier Transform)을 기반으로 함 시간과 주파수 도메인 관련 함수를 이어주는 수학적인 연산 음성 신호의 스펙트럼 분석 등에 필수적 푸리에 변환(Fourier Transform) Fourier Transform 시..
-
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology)AI/Speech 2024. 1. 13. 23:09
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology) 음성학(Phonetics) 말소리의 실체에 물리적으로 접근하여 기술하고 분석하는 분야 물리적인 말소리의 생성과 음향 및 인지에 초점 세부 분야 조음음성학 : 말소리가 만들어지는 과정에 대한 연구 분야. 개별 언어의 말소리를 만들어 내기 위해 우리 몸의 어떤 기관의 어떤 부분을 어떤 모양으로 움직이는가 하는 점을 연구. 음향음성학 : 말소리의 물리적 특성을 연구하는 분야. 음향분석기 등을 이용하여 발음을 하는 기관들의 움직임에 따라 달라지는 말소리의 음파를 분석하고 연구. 청취음성학 : 말소리를 인지하는 과정에 대한 연구 분야. 말소리가 귀를 통과하는 과정과 뇌에서 그것을 해석하는 과정을 연구. 공기를 통하여 전달되는 말소리..
-
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요AI/Speech 2024. 1. 13. 22:40
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요 Automatic Speech Recognition (ASR, 자동 음성 인식) 정의 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템 사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model) 종류 음향 모델(Acoustic Model) 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 최근: 딥러닝 기반 기법들 언어 모델(Language Model) 기존: 통계 기반 n-gram 모델 최근: 딥러닝 기반 기법들 원리 음성 신호 X..
-
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019)AI/Speech 2024. 1. 13. 16:08
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019) word2vec과 비슷한 본 모델의 이름에서 느낌이 오듯이, 임베딩을 잘 뽑기 위한 모델이라 생각하면 되겠다 Introduction 기존 연구들과 그 한계 현재 ASR SOTA 모델들은 대량의 transcribed audio data가 필요하다 하지만, labeled data는 부족 Key Idea 데이터 양이 충분할 때, general representation을 학습하는 것 (=pretraining) 데이터 양이 부족할 때, downstream task에 대한 성능을 높이는 것 (=fine-tuning) Unsupervised Learning..