728x90
NeurIPS
-
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022)AI/NLP 2023. 4. 11. 12:44
[2023 Spring Lab Seminar] Training language models to follow instructions with human feedback (NeurIPS 2022) 들어가기 전에 ... https://asidefine.tistory.com/213 이전에 대규님이 동일한 논문을 정리해주신 바 있었는데, 한 번 더 들으니까 더 이해가 쏙쏙 ! Abstract & Introduction RLHF : Reinforcement Learning with human feeback continuation x 4: sampling 4번 한다 NLP에서의 강화학습은 ? agent : LM Policy : Text Sequence 생성 action space: LM의 모든 token(=voca..