AI
-
Chapter 01) Reinforcement Learning OverviewAI/Reinforcement Learning 2023. 4. 11. 19:41
Chapter 01) Reinforcement Learning Overview InstructGPT에도 강화학습이 쓰였다니 ! 앞으로 더 발전할 분야인 듯 하다 예전에 강화학습 수업 들은 적 있었는데, 학점 망했던 기억이... ㅋㅋㅋ큐ㅠ 그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~ 목차 Reinforcement Learning이란 ? Reinforcement Learning의 의미 Reinforcement Learning의 특징 4가지 Reinforcement Learning의 구조 Rewards Environments Agents Reinforcement Learning의 Algorithms 용어정리 Exploration VS Exploitation Prediction V..
-
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022)AI/NLP 2023. 4. 11. 12:44
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022) 들어가기 전에 ... https://asidefine.tistory.com/213 이전에 대규님이 동일한 논문을 정리해주신 바 있었는데, 한 번 더 들으니까 더 이해가 쏙쏙 ! Abstract & Introduction RLHF : Reinforcement Learning with human feeback continuation x 4: sampling 4번 한다 NLP에서의 강화학습은 ? agent : LM Policy : Text Sequence 생성 action space: LM의 모든 token(=voca..
-
[2023 Spring NLP Seminar] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2021)AI/NLP 2023. 4. 6. 12:51
[2023 Spring NLP Seminar] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2022) 이번 분기 NLP Seminar에서는 Multilingual 분야를 파 보기로 했다 ! ! 목차 0. 들어가기 전에... 1. Abstract + Introduction 2. Related Works 3. Experiments 4. Results 5. Case Study 6. Limitations 7. Conclusion 8. Reference 0. 들어가기 전에 ... PMM (Pretrained Multilingual Model) 등장 이전 [General cross-lingual representations] 1. w..
-
[2023 Spring NLP Seminar] Data-Centric AI : Chapter 1AI 2023. 4. 5. 12:15
[2023 Spring NLP Seminar] Data-Centric AI : Chapter 1 Data-Centric AI의 필요성 Bad Data를 수작업으로 수정하기에는 돈이 엄청 많이 든다 ! -> noisy한 데이터를 어떻게 다룰 수 있을지에 대한 다양한 방법 A data-centric AI pipline Step 1: Explore the data, fix fundamental issues, and transform it to be ML appropriate. (데이터가 있으면, 일단 탐색해보고 ML에 맞게 변형을 한다!) Step 2: Train a baseline ML model on the properly formatted dataset. (변형된 데이터를 가지고 일단 ML 실험을 돌려봐..
-
[2023 Spring Lab Seminar] Efficient Dialogue State Tracking by Selectively Overwriting Memory (ACL 2020)AI/NLP 2023. 4. 4. 13:26
[2023 Spring NLP Seminar] Efficient Dialogue State Tracking by Selectively Overwriting Memory (ACL 2020) A.K.A SOM-DST Naver Clova에서 만든 SOM-DST! Abstract & Introduction 이 논문은 대화 시스템의 효율적인 State Tracking을 위한 "Selectively Overwriting Memory" 접근 방식을 제안 State Tracking은 대화 시스템에서 중요한 역할 대화 시스템은 사용자의 발화를 이해하고, 이전 발화와 현재 발화를 연결하여 사용자 의도를 파악하고 적절한 응답을 생성한다. 이를 위해서는 이전 대화 상황에 대한 정보를 메모리에 저장하고 업데이트해야 함 기존의..
-
[2023 Spring NLP Seminar] Mutual Information Alleviates Hallucinations in Abstractive Summarization (EMNLP 2022)AI/NLP 2023. 3. 28. 19:35
[2023 Spring NLP Seminar] Mutual Information Alleviates Hallucinations in Abstractive Summarization (EMNLP 2022) Abstract / Introduction Background hallucination : 긴 문서를 짧은 요약으로 생성하는 추상적 요약(abstractive summarization) 작업에서 자주 발생하는 문제 Limitation 기존의 모델들은 원본 문서에서 나타나지 않는 내용을 생성하는 경향이 있음 이로 인해 잘못된 정보를 전달하게 되는데, 이를 방지하기 위해 이전 연구에서 다양한 시도가 있었지만, 효율적이고 robust한 기술은 없었다고 함 Our Approach 모델이 hallucination을..
-
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020)AI/NLP 2023. 3. 21. 22:31
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020) 이전에 정리했던 대표적인 LM 논문들 (BERT / RoBERTa / GPT-1 / GPT-2 / GPT-3 ) https://asidefine.tistory.com/181 GPT-1 / BERT / GPT-2 간단 정리 GPT-1 / BERT / GPT-2 간단 정리 [논문 목록] GPT-1 : Improving Language Understanding by Generative Pre-Training (2018) BERT : Pre-tra..
-
[2023 Spring NLP Seminar] SimCSE : Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) 간단 리뷰AI/NLP 2023. 3. 15. 14:46
[2023 Spring NLP Seminar] SimCSE : Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) 간단 리뷰 Abstract / Introduction SimCSE: sentence embedding을 advance하는 simple한 contrastive learning framework 이전에 있었던 것들: SBERT (Reimers and Gurevych, 2019) 등 unsupervised approach positive pair: 같은 문장에 한 번씩 standard dropout을 거친 2개의 문장 negative pair는 같은 mini-batch 안의 다른 문장들 이렇게 간단한 방법이 NSP나 discrete d..