728x90
prorl
-
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰AI/NLP 2025. 7. 18. 23:10
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰 NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐..