728x90
RL
-
Reasoning LLM 논문 톺아보기 (RLVR == Reinforcement Learning with Verifiable Rewards)AI/NLP 2025. 7. 6. 14:55
0. 들어가기 전 : Before Reasoning 강화학습은 이미 LLM을 학습할 떄 적용하고 있었지만 주로 Alignment, 즉 인간의 만족도/답변의 안전성 등 사용성 측면을 위함 우리가 흔히 아는 PPO, DPO와 같은 학습 방법론이 그러하듯따라서 우리는 이것들을 RLHF, Reinforcement Learning with Human Feedback이라고 했음 기존 RLHF에서는 인간 피드백이 주관적이고 일관성이 떨어질 수 있음https://asidefine.tistory.com/280 LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원..