LLM
-
LLM Decoding Strategy 정리 (Greedy, Beam Search, Top-K, ... )AI/NLP 2024. 4. 22. 10:27
LLM Decoding Strategy 정리 (Greedy, Beam Search, Top-K, ... ) Decoding Strategy이란 언어 모델이 생성한 logit을 softmax을 적용해 확률로 변환한다면, 그 확률을 바탕으로 다음 토큰을 어떻게 선택할지 결정하는 방식모델이 생성한 출력을 최종 사용자가 이해할 수 있는 형태로 변환하는 방법론 Greedy Search 가장 간단한 방법, 각 단계에서 가장 높은 확률을 가진 토큰을 선택 언어 모델에서 타임스텝 t에서 가장 높은 확률을 갖는 토큰을 다음 토큰으로 선택하는 전략 장점빠르고 직관적단점 문맥적으로 부적합하거나 의미가 불분명한 문장을 생성할 수 있다 전체적으로 최적의 문장을 생성하지 못할 수 있음 # ..
-
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... )AI/NLP 2024. 4. 22. 10:26
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... ) Absolute Positional Encoding (APE) Vanilla Transformer 모델에서 input sequence의 순서 정보를 유지하기 위해서 사용 RNN 계열과 달리 Transformer 구조는 모든 input token이 병렬적으로 들어가기 때문에 positional information이 없으면 input token들은 그냥 BoW처럼 취급된다 위와 같이, encoder와 decoder stack 이전에 들어갈 input embedding들에 element-wise addition을 해준다 Vanilla Transformer 모델에서는 Sine과 Cosine 함수..
-
LLM Tokenization 방법 정리 (BytePair, Byte-level BPE, WordPiece, Unigram, SentencePiece)AI/NLP 2024. 4. 22. 10:25
LLM Tokenization 방법 정리(BytePair, Byte-level BPE, WordPiece, Unigram, SentencePiece) Tokenization이란 input text sequence를 Token이라는 더 작은 부분으로 변환하는 과정이다 가장 단순한 Tokenization 방법은 공백을 기준으로 나누는 거겠지만, 이는 OOV(out of vocabulary) 문제를 일으킨다 이 문제를 해결하기 위해 Subword 기반의 Tokenization를 많이 사용하고 있으며, 이때 훈련 데이터에 없는 단어 등 기존에 보지 못했던 단어들에 대해서도 유연하게 대처할 수 있다 Tokenizer가 중요한 이유 토크나이저는 텍스트 처리의 첫 단계로, 그 정확성과 효율성이 전체 모델의..
-
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )AI/NLP 2024. 4. 22. 10:23
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원칙에 맞추어 조정하는 과정 인간의 윤리적 기준, 사회적 가치, 그리고 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함 이런 Alignment를 잘 수행하기 위해 인간의 행동을 더 잘 반영하는 Loss Function들이 제시되었는데 이를 Human-Aware Loss Function (HALOs)라고 한다 PPO, DPO, MTO 등이 여기에 해당한다 Reinforcement Learning with Human Feedback (RLHF) / Reinforcement learning from AI feedback (RLAIF) 3 Step으로 수행 Step 1..
-
[2023 Summer Lab Seminar] FLAN: FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (ICLR, 2022)AI/NLP 2023. 9. 28. 14:49
[2023 Summer Lab Seminar] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (ICLR, 2022) 이 논문은 “Instruction Tuning”이라는, in-context learning과 Reinforcement Learning from Human Feedback (RLHF) 사이에 제시된, 다운스트림 태스크에 대한 학습 방식을 제시한 논문입니다. 다음과 같은 순서로 소개해드리겠습니다. 먼저 Introduction에서 최근 fine-tuning 외의 LLM을 학습하는 방식들에 대해서 설명을 드리고, 오늘 핵심적으로 말씀드릴 Instruction Tuning에 대해서 소개하고자 합니다. Instruction Tuning의 학습 방법을 말씀드리고..
-
[2023 Spring NLP Seminar] On Transferability of Prompt Tuning for Natural Language Processing (NAACL 2022)AI/NLP 2023. 5. 10. 11:07
[2023 Spring NLP Seminar ] On Transferability of Prompt Tuning for Natural Language Processing (NAACL 2022) Abstract + Introduction 기존 연구 동향: 기존의 pre-trained language models (PLMs)은 파라미터 수가 매우 많아서 fine-tuning에는 많은 계산 자원과 시간이 필요했다. 이러한 문제를 해결하기 위해 Prompt Tuning (PT)이라는 새로운 방법이 제안되었다. PT는 매우 큰 PLMs를 활용하여 매우 적은 수의 소프트 프롬프트(prompt)만을 조정하여 전체 파라미터 fine-tuning 수행 결과와 비교 가능한 성능을 달성하는 방법이다. 기존 연구들의 한계: ..
-
Training language models to follow instructions with human feedback (a.k.a. InstructGPT, 2022) 리뷰AI/NLP 2023. 1. 26. 16:25
Training language models to follow instructions with human feedback (a.k.a. InstructGPT, 2022) 리뷰 목차 들어가며... Paradigms for Applying LLMs 들어가며... meta : Blender bot 3.0 google : LaMDA 실제 구글 개발자가 LaMDA가 감정이 있다고 하자, 해고당한 적 있음 https://medium.com/predict/does-googles-lamda-robot-experience-feelings-184fa300f9aa General AI가 오고 있는가 ? DALLI / ChatGPT .... : 오고 있는 중 아닐까 ? ChatGPT가 불러온 파장 https://meta.sta..
-
[Prompting] It’s Not Just Size That Matters:Small Language Models Are Also Few-Shot Learners 정리 (NAACL, 2021)AI/NLP 2023. 1. 11. 20:55
[Prompting] It’s Not Just Size That Matters:Small Language Models Are Also Few-Shot Learners 정리 (NAACL, 2021) 이 전에 작성했던 "나중에 읽을 논문들 / github repo들"이라는 포스트에 prompting 관련 논문을 읽고 싶다고 했었는데, 마침 랩 세미나 peer review를 하게 되어서,,, 먼저 이 논문을 제시해보았다 하지만 나의 발표가 아니기 때문에 간단히 정리하고 넘어가고자 한다 목차 0. 들어가기전에 ... : Prompting이란 ? 1. Introduction 2. Methods 3. Experiments & Results 4. Code Review 0. 들어가기전에 ... : Prompting이란..