AI/NLP
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰
땽뚕
2025. 7. 18. 23:10
728x90
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰
- NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장
- ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함
- 기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함
- 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐도) 3) 데이터의 다양성 부족하더라
- 기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함
- 과연 그럴까 ?
- "아님, RL은 진짜로 새로운 추론 능력을 확장한다!" 근거는 ?
- 1. 완전히 새로운 해결책 발견
- 베이스 모델이 아무리 많이 샘플링해도 전혀 해결하지 못하는 태스크들에서 RL 모델이 100% 성공률 달성
- 2. "약할수록 더 강해진다" 법칙
- 베이스 모델이 약한 영역일수록 RL 훈련 후 더 큰 개선 효과를 보임
- 이미 잘하는 영역에서는 RL이 오히려 추론 경계를 좁힘
- 3. 창의성 지수(Creativity Index) 증가
- 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
- reasoning trajectory의 novelty 정량화
- 4. 분포 외(OOD) 일반화
- 훈련에서 보지 못한 태스크에서도 강력한 성능 향상
- 5. 지속적 개선
- 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
- 1. 완전히 새로운 해결책 발견
- "아님, RL은 진짜로 새로운 추론 능력을 확장한다!" 근거는 ?
- 그걸 어떻게 했나 봤더니 ...
방법론
Background : PPO의 한계와 GRPO의 등장
기존 PPO의 문제점
- value model이 필요: "이 답이 얼마나 좋은지" 평가하는 별도 모델
- 복잡한 구조와 불안정한 학습
- 두 개의 neural network를 동시에 학습해야 하는 부담
GRPO의 혁신적 해결책
- value model 완전 제거
- group score 기반 상대적 평가: 같은 그룹 안에서 "누가 더 잘했나" 비교
- 훨씬 간단하고 안정적인 학습
GRPO의 핵심 메커니즘
Objective Function
LGRPO(θ) = Eτ∼πθ[min(rθ(τ)A(τ), clip(rθ(τ), 1-ϵ, 1+ϵ)A(τ))]
구성 요소 설명
- τ: current policy πθ에서 sampling된 response (AI가 생성한 답변)
- rθ(τ): current policy와 old policy 간 probability ratio
- A(τ): advantage function - 이 답변이 상대적으로 얼마나 좋은지
Group-based Advantage의 핵심
A(τ) = (Rτ - mean({Ri}i∈G(τ))) / std({Ri}i∈G(τ))
실제 예시로 이해하기:
- 수학 문제 10개를 그룹이 함께 풀었음
- 내 점수: 7개, 그룹 평균: 5개, 표준편차: 1.5
- Advantage = (7-5)/1.5 = +1.33 (양수 → 잘했다는 신호)
- 이 신호로 해당 답변 방식을 더 강화
Prolonged Reinforcement Learning (ProRL)의 핵심 Challenge
가장 큰 적: Entropy Collapse
Entropy Collapse란?
- AI가 학습하다가 갑자기 한 가지 답변 패턴에만 매달리는 현상
- output distribution이 특정 답변에 과도하게 집중됨
- 마치 학생이 한 가지 문제 풀이법만 외워서 다른 접근은 시도조차 안 하는 것
발생 과정 (구체적 예시)
초기 상태 (건강한 다양성):
- 해법 A: 30% 확률로 선택
- 해법 B: 35% 확률로 선택
- 해법 C: 35% 확률로 선택
Entropy Collapse 후:
- 해법 A: 5% 확률
- 해법 B: 5% 확률
- 해법 C: 90% 확률 (거의 이것만 선택)
왜 이렇게 될까?
- 초기 성공: 해법 C가 몇 번 좋은 결과를 냄
- Positive Feedback Loop: 성공한 해법만 계속 강화됨
- 다른 가능성 무시: A, B는 시도할 기회조차 잃음
- 악순환 완성: 더 이상 새로운 발견 불가능
GRPO에서 특히 치명적인 이유
- Group 비교가 핵심: 다양한 답변이 있어야 서로 비교 가능
- 모두 같은 답만 하면 → 그룹 평균도 같아짐 → 학습 신호 사라짐
- 마치 학급 전체가 같은 답안지를 베끼면 누가 잘했는지 알 수 없는 것과 같음
Exploration의 중요성
Exploration vs Exploitation
- Exploitation (활용): 알고 있는 좋은 방법 계속 사용
- Exploration (탐색): 새로운 방법들을 시도해보기
- 일상 비유: 맛있는 단골 식당 vs 새로운 식당 도전
AI 학습에서 Exploration이 중요한 이유
- 더 좋은 해법 발견: 현재 알고 있는 것보다 더 나은 방법이 있을 수 있음
- Robust성 확보: 다양한 상황에 대응할 수 있는 유연성
- 학습 신호 생성: 다양한 시도 → 다양한 결과 → 풍부한 비교 데이터
장기 학습에서의 딜레마
- 단기적: Exploration ↑ → Performance ↓ (당장은 실패 많음)
- 장기적: Exploration ↑ → Performance ↑ (결국 더 나은 방법 발견)
ProRL의 실제 해결 전략들
1. High Rollout Temperature
Temperature의 역할
낮은 온도 (0.1): 가장 확실한 답만 선택 (보수적)
높은 온도 (1.2): 불확실한 답도 자주 선택 (모험적)
ProRL의 선택: Temperature 1.2
- 기존보다 훨씬 높은 값 사용
- "좀 더 모험적으로 답해봐" 라고 AI를 격려
- 하지만 이것만으로는 entropy collapse를 지연시킬 뿐, 완전 방지는 불가능
2. Decoupled Clipping
기존 PPO의 대칭적 제한
clip(ratio, 1-ε, 1+ε) # 상한과 하한이 똑같음
- 너무 보수적: 새로운 시도를 과도하게 억제
ProRL의 비대칭 전략 ->"좋은 행동을 더 강하게 보상하자"
clip(ratio, 1-ε_low, 1+ε_high)
ε_high = 0.4, ε_low = 0.2 # 상한을 더 높게!
실제 효과 예시:
기존: 1% 확률 답변 → 최대 1.2%까지만 증가 가능
개선: 1% 확률 답변 → 최대 1.4%까지 증가 가능
- Clip-higher 효과: 평소 거의 안 선택하던 답변도 더 자유롭게 시도
- Clip = 가위로 자르듯이 값을 범위 안에 제한하는 것 (너무 큰 값이나 작은 값을 "잘라내서" 안전한 범위로 만듦)
- Higher = 위쪽 한계(상한선)을 더 높게 설정 (기존보다 더 큰 값까지 허용한다는 뜻)
- Previously unlikely token uplift: 새로운 가능성들에 더 많은 기회 제공
- 탐색(exploration)을 촉진하는 효과
- 예상치 못한 좋은 토큰이 나왔을 때, 그 확률을 더 크게 증가시킬 수 있게 허용
3. Dynamic Sampling
학습 효율성 문제
- 너무 쉬운 문제 (항상 100% 맞춤): 배울 게 없음
- 너무 어려운 문제 (항상 0% 맞춤): 포기하게 됨
- 적당한 문제 (50-80% 맞춤): 가장 학습 효과 높음
Dynamic Filtering 전략
- Accuracy 1.0 또는 0.0인 prompt들을 제거
- Intermediate difficulty example에만 집중
- 교육학적 비유: 학생 수준에 맞는 적절한 난이도 문제 제공
왜 효과적인가?
- 다양한 시도가 의미 있는 상황에서만 학습
- Learning signal이 더 informative해짐
- Training 안정성 향상
4. KL Regularization과 Reference Policy Reset
1. KL Regularization의 도입
기존 방법들의 한계
- Temperature, Decoupled Clipping, Dynamic Sampling으로도 entropy collapse를 완전히 막기는 어려움
- 더 강력하고 직접적인 해결책 필요
KL Divergence Penalty
LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)
이해하기 쉬운 해석:
- LGRPO(θ): "더 좋은 답변을 하도록 학습해라"
- βDKL(πθ||πref): "하지만 원래 모습에서 너무 멀어지지는 마라"
- β: 얼마나 엄격하게 제한할지 정하는 강도 조절 knob
이중 효과
- Entropy 직접 보존: Distribution이 너무 peaked되는 것 방지
- Training 안정화:
- Spurious reward signal에 대한 overfitting 방지
- 너무 급진적인 변화 억제
2. KL Penalty 논쟁
반대 진영의 주장
- Recent work들: "KL penalty 없애는 게 맞다"
- 근거: "Chain-of-thought reasoning에서 model이 naturally diverge하는 게 정상"
ProRL 팀의 반박
Context가 다르다는 주장:
- 기존 연구: Base model (아무 fine-tuning 안 한 상태)에서 시작
- ProRL: Well-initialized checkpoint에서 시작
- DeepSeek-R1-Distill-Qwen-1.5B 사용
- 이미 coherent CoT output 생성 가능한 상태
- 결론: 이미 잘 훈련된 모델에서는 KL penalty가 여전히 유용
3. Reference Policy Reset
새로운 문제: KL Term Dominance
시간이 지나면서...
LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)
↑
이 부분이 점점 커짐
- KL penalty가 loss를 점점 더 dominate
- Policy update가 거의 안 됨 (diminishing effect)
- "참조 모델과 너무 달라지지 마라"는 제약이 너무 강해짐
Reference Policy Reset 해결책
핵심 아이디어:
- 주기적으로 reference policy πref를 현재 모델로 업데이트
- "이제 너의 새로운 모습이 기준이야" 하고 새 출발점 제공
구체적 구현:
- Hard Reset: πref ← πθ (현재 모델을 새로운 참조점으로)
- Optimizer State 재초기화: 완전히 새로운 시작
- 주기적 적용: Training 전반에 걸쳐 반복
최종 효과
- 지속적 발전: 계속 새로운 기준점으로 성장 가능
- 안정성 유지: KL regularization의 benefit은 그대로
- Premature convergence 방지: 조기 수렴 없이 prolonged training 달성
5 전체적인 시너지 효과
각 Component들의 역할 분담
- High Temperature: 초기 다양성 확보
- Decoupled Clipping: 새로운 시도에 더 많은 기회
- Dynamic Sampling: 의미 있는 학습 상황에만 집중
- KL Regularization: 안정성과 entropy 동시 보장
- Reference Reset: 지속적 발전 가능하게 만듦
결과적 성취
- 1.5B parameter model이 7B model과 comparable performance
- Novel reasoning capability 발현: 기존에 없던 추론 방법 개발
- Genuine capability expansion: 단순 amplification이 아닌 진짜 능력 확장
- Strong out-of-distribution performance: 다양한 exploration 덕분
이 모든 것이 결합되어 "오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는" ProRL을 완성한 것임.
개인적 감상
- DAPO에서도 그렇고, GRPO의 대칭적 clipping 기법을 개선하는 Decoupling Clipping 방식이 제시됐네
- S1 논문에서는 Train-Time이 줄이는 방식을 택했는데, ProRL 논문에서는 오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는 방식으로다가 학습
+) 거의 같아보이는 논문이 NVIDIA에서 또 나왔네
https://arxiv.org/abs/2507.12507
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training
Recent advancements in reasoning-focused language models such as OpenAI's O1 and DeepSeek-R1 have shown that scaling test-time computation-through chain-of-thought reasoning and iterative exploration-can yield substantial improvements on complex tasks like
arxiv.org
728x90