AI/NLP

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰

땽뚕 2025. 7. 18. 23:10
728x90
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰

 

 

  • NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장
  • ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함
    • 기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 
      • 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐도) 3) 데이터의 다양성 부족하더라

 

  • 과연 그럴까 ? 
    • "아님, RL은 진짜로 새로운 추론 능력을 확장한다!" 근거는 ? 
      • 1. 완전히 새로운 해결책 발견
        • 베이스 모델이 아무리 많이 샘플링해도 전혀 해결하지 못하는 태스크들에서 RL 모델이 100% 성공률 달성
      • 2. "약할수록 더 강해진다" 법칙
        • 베이스 모델이 약한 영역일수록 RL 훈련 후 더 큰 개선 효과를 보임
        • 이미 잘하는 영역에서는 RL이 오히려 추론 경계를 좁힘
      • 3. 창의성 지수(Creativity Index) 증가
        • 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
        • reasoning trajectory의 novelty 정량화
      • 4. 분포 외(OOD) 일반화
        • 훈련에서 보지 못한 태스크에서도 강력한 성능 향상
      • 5. 지속적 개선
        • 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
  • 그걸 어떻게 했나 봤더니 ... 

 

방법론 

Background : PPO의 한계와 GRPO의 등장

기존 PPO의 문제점

  • value model이 필요: "이 답이 얼마나 좋은지" 평가하는 별도 모델
  • 복잡한 구조와 불안정한 학습
  • 두 개의 neural network를 동시에 학습해야 하는 부담

GRPO의 혁신적 해결책

  • value model 완전 제거
  • group score 기반 상대적 평가: 같은 그룹 안에서 "누가 더 잘했나" 비교
  • 훨씬 간단하고 안정적인 학습

GRPO의 핵심 메커니즘

Objective Function

LGRPO(θ) = Eτ∼πθ[min(rθ(τ)A(τ), clip(rθ(τ), 1-ϵ, 1+ϵ)A(τ))]

구성 요소 설명

  • τ: current policy πθ에서 sampling된 response (AI가 생성한 답변)
  • rθ(τ): current policy와 old policy 간 probability ratio
  • A(τ): advantage function - 이 답변이 상대적으로 얼마나 좋은지

Group-based Advantage의 핵심

A(τ) = (Rτ - mean({Ri}i∈G(τ))) / std({Ri}i∈G(τ))

실제 예시로 이해하기:

  • 수학 문제 10개를 그룹이 함께 풀었음
  • 내 점수: 7개, 그룹 평균: 5개, 표준편차: 1.5
  • Advantage = (7-5)/1.5 = +1.33 (양수 → 잘했다는 신호)
  • 이 신호로 해당 답변 방식을 더 강화 

 

Prolonged Reinforcement Learning (ProRL)의 핵심 Challenge

가장 큰 적: Entropy Collapse

Entropy Collapse란?

  • AI가 학습하다가 갑자기 한 가지 답변 패턴에만 매달리는 현상
  • output distribution이 특정 답변에 과도하게 집중됨
  • 마치 학생이 한 가지 문제 풀이법만 외워서 다른 접근은 시도조차 안 하는 것

발생 과정 (구체적 예시)

초기 상태 (건강한 다양성):
- 해법 A: 30% 확률로 선택
- 해법 B: 35% 확률로 선택  
- 해법 C: 35% 확률로 선택

Entropy Collapse 후:
- 해법 A: 5% 확률
- 해법 B: 5% 확률
- 해법 C: 90% 확률 (거의 이것만 선택)

왜 이렇게 될까?

  1. 초기 성공: 해법 C가 몇 번 좋은 결과를 냄
  2. Positive Feedback Loop: 성공한 해법만 계속 강화됨
  3. 다른 가능성 무시: A, B는 시도할 기회조차 잃음
  4. 악순환 완성: 더 이상 새로운 발견 불가능

GRPO에서 특히 치명적인 이유

  • Group 비교가 핵심: 다양한 답변이 있어야 서로 비교 가능
  • 모두 같은 답만 하면 → 그룹 평균도 같아짐 → 학습 신호 사라짐
  • 마치 학급 전체가 같은 답안지를 베끼면 누가 잘했는지 알 수 없는 것과 같음

 

Exploration의 중요성

Exploration vs Exploitation

  • Exploitation (활용): 알고 있는 좋은 방법 계속 사용
  • Exploration (탐색): 새로운 방법들을 시도해보기
  • 일상 비유: 맛있는 단골 식당 vs 새로운 식당 도전

AI 학습에서 Exploration이 중요한 이유

  1. 더 좋은 해법 발견: 현재 알고 있는 것보다 더 나은 방법이 있을 수 있음
  2. Robust성 확보: 다양한 상황에 대응할 수 있는 유연성
  3. 학습 신호 생성: 다양한 시도 → 다양한 결과 → 풍부한 비교 데이터

장기 학습에서의 딜레마

  • 단기적: Exploration ↑ → Performance ↓ (당장은 실패 많음)
  • 장기적: Exploration ↑ → Performance ↑ (결국 더 나은 방법 발견)

 


 

ProRL의 실제 해결 전략들

 

1. High Rollout Temperature

Temperature의 역할

낮은 온도 (0.1): 가장 확실한 답만 선택 (보수적)
높은 온도 (1.2): 불확실한 답도 자주 선택 (모험적)

ProRL의 선택: Temperature 1.2

  • 기존보다 훨씬 높은 값 사용
  • "좀 더 모험적으로 답해봐" 라고 AI를 격려
  • 하지만 이것만으로는 entropy collapse를 지연시킬 뿐, 완전 방지는 불가능

 

2. Decoupled Clipping

기존 PPO의 대칭적 제한

clip(ratio, 1-ε, 1+ε)  # 상한과 하한이 똑같음
  • 너무 보수적: 새로운 시도를 과도하게 억제

ProRL의 비대칭 전략  ->"좋은 행동을 더 강하게 보상하자"

clip(ratio, 1-ε_low, 1+ε_high)
ε_high = 0.4, ε_low = 0.2  # 상한을 더 높게!

실제 효과 예시:

기존: 1% 확률 답변 → 최대 1.2%까지만 증가 가능
개선: 1% 확률 답변 → 최대 1.4%까지 증가 가능
  • Clip-higher 효과: 평소 거의 안 선택하던 답변도 더 자유롭게 시도
    • Clip = 가위로 자르듯이 값을 범위 안에 제한하는 것 (너무 큰 값이나 작은 값을 "잘라내서" 안전한 범위로 만듦)
    • Higher = 위쪽 한계(상한선)을 더 높게 설정 (기존보다 더 큰 값까지 허용한다는 뜻)
  • Previously unlikely token uplift: 새로운 가능성들에 더 많은 기회 제공
    • 탐색(exploration)을 촉진하는 효과
    • 예상치 못한 좋은 토큰이 나왔을 때, 그 확률을 더 크게 증가시킬 수 있게 허용

 

3. Dynamic Sampling

학습 효율성 문제

  • 너무 쉬운 문제 (항상 100% 맞춤): 배울 게 없음
  • 너무 어려운 문제 (항상 0% 맞춤): 포기하게 됨
  • 적당한 문제 (50-80% 맞춤): 가장 학습 효과 높음

Dynamic Filtering 전략

  • Accuracy 1.0 또는 0.0인 prompt들을 제거
  • Intermediate difficulty example에만 집중
  • 교육학적 비유: 학생 수준에 맞는 적절한 난이도 문제 제공

왜 효과적인가?

  • 다양한 시도가 의미 있는 상황에서만 학습
  • Learning signal이 더 informative해짐
  • Training 안정성 향상

 

 

4.  KL Regularization과 Reference Policy Reset

1.  KL Regularization의 도입

기존 방법들의 한계

  • Temperature, Decoupled Clipping, Dynamic Sampling으로도 entropy collapse를 완전히 막기는 어려움
  • 더 강력하고 직접적인 해결책 필요

KL Divergence Penalty

LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)

이해하기 쉬운 해석:

  • LGRPO(θ): "더 좋은 답변을 하도록 학습해라"
  • βDKL(πθ||πref): "하지만 원래 모습에서 너무 멀어지지는 마라"
  • β: 얼마나 엄격하게 제한할지 정하는 강도 조절 knob

이중 효과

  1. Entropy 직접 보존: Distribution이 너무 peaked되는 것 방지
  2. Training 안정화:
    • Spurious reward signal에 대한 overfitting 방지
    • 너무 급진적인 변화 억제

2. KL Penalty 논쟁

반대 진영의 주장

  • Recent work들: "KL penalty 없애는 게 맞다"
  • 근거: "Chain-of-thought reasoning에서 model이 naturally diverge하는 게 정상"

ProRL 팀의 반박

Context가 다르다는 주장:

  • 기존 연구: Base model (아무 fine-tuning 안 한 상태)에서 시작
  • ProRL: Well-initialized checkpoint에서 시작
    • DeepSeek-R1-Distill-Qwen-1.5B 사용
    • 이미 coherent CoT output 생성 가능한 상태
  • 결론: 이미 잘 훈련된 모델에서는 KL penalty가 여전히 유용

 

3. Reference Policy Reset

새로운 문제: KL Term Dominance

시간이 지나면서...
LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)
                       ↑
                  이 부분이 점점 커짐
  • KL penalty가 loss를 점점 더 dominate
  • Policy update가 거의 안 됨 (diminishing effect)
  • "참조 모델과 너무 달라지지 마라"는 제약이 너무 강해짐

Reference Policy Reset 해결책

핵심 아이디어:

  • 주기적으로 reference policy πref를 현재 모델로 업데이트
  • "이제 너의 새로운 모습이 기준이야" 하고 새 출발점 제공

구체적 구현:

  1. Hard Reset: πref ← πθ (현재 모델을 새로운 참조점으로)
  2. Optimizer State 재초기화: 완전히 새로운 시작
  3. 주기적 적용: Training 전반에 걸쳐 반복

최종 효과

  • 지속적 발전: 계속 새로운 기준점으로 성장 가능
  • 안정성 유지: KL regularization의 benefit은 그대로
  • Premature convergence 방지: 조기 수렴 없이 prolonged training 달성

 

5 전체적인 시너지 효과

각 Component들의 역할 분담

  1. High Temperature: 초기 다양성 확보
  2. Decoupled Clipping: 새로운 시도에 더 많은 기회
  3. Dynamic Sampling: 의미 있는 학습 상황에만 집중
  4. KL Regularization: 안정성과 entropy 동시 보장
  5. Reference Reset: 지속적 발전 가능하게 만듦

결과적 성취

  • 1.5B parameter model이 7B model과 comparable performance
  • Novel reasoning capability 발현: 기존에 없던 추론 방법 개발
  • Genuine capability expansion: 단순 amplification이 아닌 진짜 능력 확장
  • Strong out-of-distribution performance: 다양한 exploration 덕분

이 모든 것이 결합되어 "오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는" ProRL을 완성한 것임.

 


개인적 감상 

 

  • DAPO에서도 그렇고, GRPO의 대칭적 clipping 기법을 개선하는 Decoupling Clipping 방식이 제시됐네 
  • S1 논문에서는 Train-Time이 줄이는 방식을 택했는데, ProRL 논문에서는 오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는 방식으로다가 학습 

 

+) 거의 같아보이는 논문이 NVIDIA에서 또 나왔네 

https://arxiv.org/abs/2507.12507

 

Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training

Recent advancements in reasoning-focused language models such as OpenAI's O1 and DeepSeek-R1 have shown that scaling test-time computation-through chain-of-thought reasoning and iterative exploration-can yield substantial improvements on complex tasks like

arxiv.org

 

728x90