InstructGPT
-
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022)AI/NLP 2023. 4. 11. 12:44
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022) 들어가기 전에 ... https://asidefine.tistory.com/213 이전에 대규님이 동일한 논문을 정리해주신 바 있었는데, 한 번 더 들으니까 더 이해가 쏙쏙 ! Abstract & Introduction RLHF : Reinforcement Learning with human feeback continuation x 4: sampling 4번 한다 NLP에서의 강화학습은 ? agent : LM Policy : Text Sequence 생성 action space: LM의 모든 token(=voca..
-
Training language models to follow instructions with human feedback (a.k.a. InstructGPT, 2022) 리뷰AI/NLP 2023. 1. 26. 16:25
Training language models to follow instructions with human feedback (a.k.a. InstructGPT, 2022) 리뷰 목차 들어가며... Paradigms for Applying LLMs 들어가며... meta : Blender bot 3.0 google : LaMDA 실제 구글 개발자가 LaMDA가 감정이 있다고 하자, 해고당한 적 있음 https://medium.com/predict/does-googles-lamda-robot-experience-feelings-184fa300f9aa General AI가 오고 있는가 ? DALLI / ChatGPT .... : 오고 있는 중 아닐까 ? ChatGPT가 불러온 파장 https://meta.sta..