ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰

AI/NLP

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰

땽뚕 2025. 7. 18. 23:10

728x90

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰

NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장
ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함
- 기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함
  - 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐도) 3) 데이터의 다양성 부족하더라

과연 그럴까 ?
- "아님, RL은 진짜로 새로운 추론 능력을 확장한다!" 근거는 ?
  - 1. 완전히 새로운 해결책 발견
    - 베이스 모델이 아무리 많이 샘플링해도 전혀 해결하지 못하는 태스크들에서 RL 모델이 100% 성공률 달성
  - 2. "약할수록 더 강해진다" 법칙
    - 베이스 모델이 약한 영역일수록 RL 훈련 후 더 큰 개선 효과를 보임
    - 이미 잘하는 영역에서는 RL이 오히려 추론 경계를 좁힘
  - 3. 창의성 지수(Creativity Index) 증가
    - 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
    - reasoning trajectory의 novelty 정량화
  - 4. 분포 외(OOD) 일반화
    - 훈련에서 보지 못한 태스크에서도 강력한 성능 향상
  - 5. 지속적 개선
    - 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
그걸 어떻게 했나 봤더니 ...

방법론

Background : PPO의 한계와 GRPO의 등장

기존 PPO의 문제점

value model이 필요: "이 답이 얼마나 좋은지" 평가하는 별도 모델
복잡한 구조와 불안정한 학습
두 개의 neural network를 동시에 학습해야 하는 부담

GRPO의 혁신적 해결책

value model 완전 제거
group score 기반 상대적 평가: 같은 그룹 안에서 "누가 더 잘했나" 비교
훨씬 간단하고 안정적인 학습

GRPO의 핵심 메커니즘

Objective Function

LGRPO(θ) = Eτ∼πθ[min(rθ(τ)A(τ), clip(rθ(τ), 1-ϵ, 1+ϵ)A(τ))]

구성 요소 설명

τ: current policy πθ에서 sampling된 response (AI가 생성한 답변)
rθ(τ): current policy와 old policy 간 probability ratio
A(τ): advantage function - 이 답변이 상대적으로 얼마나 좋은지

Group-based Advantage의 핵심

A(τ) = (Rτ - mean({Ri}i∈G(τ))) / std({Ri}i∈G(τ))

실제 예시로 이해하기:

수학 문제 10개를 그룹이 함께 풀었음
내 점수: 7개, 그룹 평균: 5개, 표준편차: 1.5
Advantage = (7-5)/1.5 = +1.33 (양수 → 잘했다는 신호)
이 신호로 해당 답변 방식을 더 강화

Prolonged Reinforcement Learning (ProRL)의 핵심 Challenge

가장 큰 적: Entropy Collapse

Entropy Collapse란?

AI가 학습하다가 갑자기 한 가지 답변 패턴에만 매달리는 현상
output distribution이 특정 답변에 과도하게 집중됨
마치 학생이 한 가지 문제 풀이법만 외워서 다른 접근은 시도조차 안 하는 것

발생 과정 (구체적 예시)

초기 상태 (건강한 다양성):
- 해법 A: 30% 확률로 선택
- 해법 B: 35% 확률로 선택  
- 해법 C: 35% 확률로 선택

Entropy Collapse 후:
- 해법 A: 5% 확률
- 해법 B: 5% 확률
- 해법 C: 90% 확률 (거의 이것만 선택)

왜 이렇게 될까?

초기 성공: 해법 C가 몇 번 좋은 결과를 냄
Positive Feedback Loop: 성공한 해법만 계속 강화됨
다른 가능성 무시: A, B는 시도할 기회조차 잃음
악순환 완성: 더 이상 새로운 발견 불가능

GRPO에서 특히 치명적인 이유

Group 비교가 핵심: 다양한 답변이 있어야 서로 비교 가능
모두 같은 답만 하면 → 그룹 평균도 같아짐 → 학습 신호 사라짐
마치 학급 전체가 같은 답안지를 베끼면 누가 잘했는지 알 수 없는 것과 같음

Exploration의 중요성

Exploration vs Exploitation

Exploitation (활용): 알고 있는 좋은 방법 계속 사용
Exploration (탐색): 새로운 방법들을 시도해보기
일상 비유: 맛있는 단골 식당 vs 새로운 식당 도전

AI 학습에서 Exploration이 중요한 이유

더 좋은 해법 발견: 현재 알고 있는 것보다 더 나은 방법이 있을 수 있음
Robust성 확보: 다양한 상황에 대응할 수 있는 유연성
학습 신호 생성: 다양한 시도 → 다양한 결과 → 풍부한 비교 데이터

장기 학습에서의 딜레마

단기적: Exploration ↑ → Performance ↓ (당장은 실패 많음)
장기적: Exploration ↑ → Performance ↑ (결국 더 나은 방법 발견)

ProRL의 실제 해결 전략들

1. High Rollout Temperature

Temperature의 역할

낮은 온도 (0.1): 가장 확실한 답만 선택 (보수적)
높은 온도 (1.2): 불확실한 답도 자주 선택 (모험적)

ProRL의 선택: Temperature 1.2

기존보다 훨씬 높은 값 사용
"좀 더 모험적으로 답해봐" 라고 AI를 격려
하지만 이것만으로는 entropy collapse를 지연시킬 뿐, 완전 방지는 불가능

2. Decoupled Clipping

기존 PPO의 대칭적 제한

clip(ratio, 1-ε, 1+ε)  # 상한과 하한이 똑같음

너무 보수적: 새로운 시도를 과도하게 억제

ProRL의 비대칭 전략 ->"좋은 행동을 더 강하게 보상하자"

clip(ratio, 1-ε_low, 1+ε_high)
ε_high = 0.4, ε_low = 0.2  # 상한을 더 높게!

실제 효과 예시:

기존: 1% 확률 답변 → 최대 1.2%까지만 증가 가능
개선: 1% 확률 답변 → 최대 1.4%까지 증가 가능

Clip-higher 효과: 평소 거의 안 선택하던 답변도 더 자유롭게 시도
- Clip = 가위로 자르듯이 값을 범위 안에 제한하는 것 (너무 큰 값이나 작은 값을 "잘라내서" 안전한 범위로 만듦)
- Higher = 위쪽 한계(상한선)을 더 높게 설정 (기존보다 더 큰 값까지 허용한다는 뜻)
Previously unlikely token uplift: 새로운 가능성들에 더 많은 기회 제공
- 탐색(exploration)을 촉진하는 효과
- 예상치 못한 좋은 토큰이 나왔을 때, 그 확률을 더 크게 증가시킬 수 있게 허용

3. Dynamic Sampling

학습 효율성 문제

너무 쉬운 문제 (항상 100% 맞춤): 배울 게 없음
너무 어려운 문제 (항상 0% 맞춤): 포기하게 됨
적당한 문제 (50-80% 맞춤): 가장 학습 효과 높음

Dynamic Filtering 전략

Accuracy 1.0 또는 0.0인 prompt들을 제거
Intermediate difficulty example에만 집중
교육학적 비유: 학생 수준에 맞는 적절한 난이도 문제 제공

왜 효과적인가?

다양한 시도가 의미 있는 상황에서만 학습
Learning signal이 더 informative해짐
Training 안정성 향상

4. KL Regularization과 Reference Policy Reset

1. KL Regularization의 도입

기존 방법들의 한계

Temperature, Decoupled Clipping, Dynamic Sampling으로도 entropy collapse를 완전히 막기는 어려움
더 강력하고 직접적인 해결책 필요

KL Divergence Penalty

LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)

이해하기 쉬운 해석:

LGRPO(θ): "더 좋은 답변을 하도록 학습해라"
βDKL(πθ||πref): "하지만 원래 모습에서 너무 멀어지지는 마라"
β: 얼마나 엄격하게 제한할지 정하는 강도 조절 knob

이중 효과

Entropy 직접 보존: Distribution이 너무 peaked되는 것 방지
Training 안정화:
- Spurious reward signal에 대한 overfitting 방지
- 너무 급진적인 변화 억제

2. KL Penalty 논쟁

반대 진영의 주장

Recent work들: "KL penalty 없애는 게 맞다"
근거: "Chain-of-thought reasoning에서 model이 naturally diverge하는 게 정상"

ProRL 팀의 반박

Context가 다르다는 주장:

기존 연구: Base model (아무 fine-tuning 안 한 상태)에서 시작
ProRL: Well-initialized checkpoint에서 시작
- DeepSeek-R1-Distill-Qwen-1.5B 사용
- 이미 coherent CoT output 생성 가능한 상태
결론: 이미 잘 훈련된 모델에서는 KL penalty가 여전히 유용

3. Reference Policy Reset

새로운 문제: KL Term Dominance

시간이 지나면서...
LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)
                       ↑
                  이 부분이 점점 커짐

KL penalty가 loss를 점점 더 dominate
Policy update가 거의 안 됨 (diminishing effect)
"참조 모델과 너무 달라지지 마라"는 제약이 너무 강해짐

Reference Policy Reset 해결책

핵심 아이디어:

주기적으로 reference policy πref를 현재 모델로 업데이트
"이제 너의 새로운 모습이 기준이야" 하고 새 출발점 제공

구체적 구현:

Hard Reset: πref ← πθ (현재 모델을 새로운 참조점으로)
Optimizer State 재초기화: 완전히 새로운 시작
주기적 적용: Training 전반에 걸쳐 반복

최종 효과

지속적 발전: 계속 새로운 기준점으로 성장 가능
안정성 유지: KL regularization의 benefit은 그대로
Premature convergence 방지: 조기 수렴 없이 prolonged training 달성

5 전체적인 시너지 효과

각 Component들의 역할 분담

High Temperature: 초기 다양성 확보
Decoupled Clipping: 새로운 시도에 더 많은 기회
Dynamic Sampling: 의미 있는 학습 상황에만 집중
KL Regularization: 안정성과 entropy 동시 보장
Reference Reset: 지속적 발전 가능하게 만듦

결과적 성취

1.5B parameter model이 7B model과 comparable performance
Novel reasoning capability 발현: 기존에 없던 추론 방법 개발
Genuine capability expansion: 단순 amplification이 아닌 진짜 능력 확장
Strong out-of-distribution performance: 다양한 exploration 덕분

이 모든 것이 결합되어 "오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는" ProRL을 완성한 것임.

개인적 감상

DAPO에서도 그렇고, GRPO의 대칭적 clipping 기법을 개선하는 Decoupling Clipping 방식이 제시됐네
S1 논문에서는 Train-Time이 줄이는 방식을 택했는데, ProRL 논문에서는 오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는 방식으로다가 학습

+) 거의 같아보이는 논문이 NVIDIA에서 또 나왔네

https://arxiv.org/abs/2507.12507

Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training

Recent advancements in reasoning-focused language models such as OpenAI's O1 and DeepSeek-R1 have shown that scaling test-time computation-through chain-of-thought reasoning and iterative exploration-can yield substantial improvements on complex tasks like

arxiv.org

728x90