AI
-
[2023 Spring Lab Seminar] When is BERT Multilingual? Isolating Crucial Ingredients for Cross-lingual Transfer (NAACL, 2022)AI/NLP 2023. 4. 25. 18:39
[2023 Spring Lab Seminar] When is BERT Multilingual? Isolating Crucial Ingredients for Cross-lingual Transfer (NAACL, 2022) Abstract + Introduction Research Goal 어떤 Property가 cross-lingual zero shot transfer에 좋은 영향을 주냐 ? Method 16 natural-synthetic language pair Languages : 1) English, 2) French, 3) Arabic, and 4) Hindi 4 Downstream Tasks : 1) NLI, 2) NER, 3) POS, and 4) QA Transformation: 1) In..
-
Chapter 03) Model-based PlanningAI/Reinforcement Learning 2023. 4. 12. 23:14
Chapter 03) Model-based Planning 이 중, 오른편에 속하는 Model Based RL를 공부한다 목차 Dynamic Programming Prediction (evaluation) Iterative Policy Evaluation Control Policy Iteration Value Iteration 내용 Model-based : Model을 알고 있음 (= 즉 transition function을 알고 있다) Planning : 환경에 대한 model를 알고 있고, agent는 외부적인 상호작용을 하지 않은 채 그 model에 대해 계산한다 ⇒ Dynamic Programming! ⇒ state value function을 적용하였을 때보다 action value functi..
-
Chapter 02) Markov Decision ProcessAI/Reinforcement Learning 2023. 4. 12. 22:49
Chapter 02) Markov Decision Process 목차 Markov Property State Transition Matrix Markov Process(=Chain) Markov Reward Process (Discounted) Return Value Function - State Value Function Bellman Equation for MRPs Markov Decision Process Bellman Expectation Equation Policies Value Function Bellman Optimality Equation Optimal Policies Optimal Value Function 내용 1. Markov Property ⇒ " 어떤 상태 S는 Markov 상태이..
-
Chapter 01) Reinforcement Learning OverviewAI/Reinforcement Learning 2023. 4. 11. 19:41
Chapter 01) Reinforcement Learning Overview InstructGPT에도 강화학습이 쓰였다니 ! 앞으로 더 발전할 분야인 듯 하다 예전에 강화학습 수업 들은 적 있었는데, 학점 망했던 기억이... ㅋㅋㅋ큐ㅠ 그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~ 목차 Reinforcement Learning이란 ? Reinforcement Learning의 의미 Reinforcement Learning의 특징 4가지 Reinforcement Learning의 구조 Rewards Environments Agents Reinforcement Learning의 Algorithms 용어정리 Exploration VS Exploitation Prediction V..
-
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022)AI/NLP 2023. 4. 11. 12:44
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022) 들어가기 전에 ... https://asidefine.tistory.com/213 이전에 대규님이 동일한 논문을 정리해주신 바 있었는데, 한 번 더 들으니까 더 이해가 쏙쏙 ! Abstract & Introduction RLHF : Reinforcement Learning with human feeback continuation x 4: sampling 4번 한다 NLP에서의 강화학습은 ? agent : LM Policy : Text Sequence 생성 action space: LM의 모든 token(=voca..
-
[2023 Spring NLP Seminar] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2021)AI/NLP 2023. 4. 6. 12:51
[2023 Spring NLP Seminar] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2022) 이번 분기 NLP Seminar에서는 Multilingual 분야를 파 보기로 했다 ! ! 목차 0. 들어가기 전에... 1. Abstract + Introduction 2. Related Works 3. Experiments 4. Results 5. Case Study 6. Limitations 7. Conclusion 8. Reference 0. 들어가기 전에 ... PMM (Pretrained Multilingual Model) 등장 이전 [General cross-lingual representations] 1. w..
-
[2023 Spring NLP Seminar] Data-Centric AI : Chapter 1AI 2023. 4. 5. 12:15
[2023 Spring NLP Seminar] Data-Centric AI : Chapter 1 Data-Centric AI의 필요성 Bad Data를 수작업으로 수정하기에는 돈이 엄청 많이 든다 ! -> noisy한 데이터를 어떻게 다룰 수 있을지에 대한 다양한 방법 A data-centric AI pipline Step 1: Explore the data, fix fundamental issues, and transform it to be ML appropriate. (데이터가 있으면, 일단 탐색해보고 ML에 맞게 변형을 한다!) Step 2: Train a baseline ML model on the properly formatted dataset. (변형된 데이터를 가지고 일단 ML 실험을 돌려봐..
-
[2023 Spring Lab Seminar] Efficient Dialogue State Tracking by Selectively Overwriting Memory (ACL 2020)AI/NLP 2023. 4. 4. 13:26
[2023 Spring NLP Seminar] Efficient Dialogue State Tracking by Selectively Overwriting Memory (ACL 2020) A.K.A SOM-DST Naver Clova에서 만든 SOM-DST! Abstract & Introduction 이 논문은 대화 시스템의 효율적인 State Tracking을 위한 "Selectively Overwriting Memory" 접근 방식을 제안 State Tracking은 대화 시스템에서 중요한 역할 대화 시스템은 사용자의 발화를 이해하고, 이전 발화와 현재 발화를 연결하여 사용자 의도를 파악하고 적절한 응답을 생성한다. 이를 위해서는 이전 대화 상황에 대한 정보를 메모리에 저장하고 업데이트해야 함 기존의..