ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰
    AI/NLP 2025. 7. 18. 23:10
    728x90
    ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰

     

     

    • NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장
    • ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함
      • 기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 
        • 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐도) 3) 데이터의 다양성 부족하더라

     

    • 과연 그럴까 ? 
      • "아님, RL은 진짜로 새로운 추론 능력을 확장한다!" 근거는 ? 
        • 1. 완전히 새로운 해결책 발견
          • 베이스 모델이 아무리 많이 샘플링해도 전혀 해결하지 못하는 태스크들에서 RL 모델이 100% 성공률 달성
        • 2. "약할수록 더 강해진다" 법칙
          • 베이스 모델이 약한 영역일수록 RL 훈련 후 더 큰 개선 효과를 보임
          • 이미 잘하는 영역에서는 RL이 오히려 추론 경계를 좁힘
        • 3. 창의성 지수(Creativity Index) 증가
          • 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
          • reasoning trajectory의 novelty 정량화
        • 4. 분포 외(OOD) 일반화
          • 훈련에서 보지 못한 태스크에서도 강력한 성능 향상
        • 5. 지속적 개선
          • 장기간 RL 훈련이 더 새로운(novel) 추론 궤적을 만들어냄
    • 그걸 어떻게 했나 봤더니 ... 

     

    방법론 

    Background : PPO의 한계와 GRPO의 등장

    기존 PPO의 문제점

    • value model이 필요: "이 답이 얼마나 좋은지" 평가하는 별도 모델
    • 복잡한 구조와 불안정한 학습
    • 두 개의 neural network를 동시에 학습해야 하는 부담

    GRPO의 혁신적 해결책

    • value model 완전 제거
    • group score 기반 상대적 평가: 같은 그룹 안에서 "누가 더 잘했나" 비교
    • 훨씬 간단하고 안정적인 학습

    GRPO의 핵심 메커니즘

    Objective Function

    LGRPO(θ) = Eτ∼πθ[min(rθ(τ)A(τ), clip(rθ(τ), 1-ϵ, 1+ϵ)A(τ))]

    구성 요소 설명

    • τ: current policy πθ에서 sampling된 response (AI가 생성한 답변)
    • rθ(τ): current policy와 old policy 간 probability ratio
    • A(τ): advantage function - 이 답변이 상대적으로 얼마나 좋은지

    Group-based Advantage의 핵심

    A(τ) = (Rτ - mean({Ri}i∈G(τ))) / std({Ri}i∈G(τ))

    실제 예시로 이해하기:

    • 수학 문제 10개를 그룹이 함께 풀었음
    • 내 점수: 7개, 그룹 평균: 5개, 표준편차: 1.5
    • Advantage = (7-5)/1.5 = +1.33 (양수 → 잘했다는 신호)
    • 이 신호로 해당 답변 방식을 더 강화 

     

    Prolonged Reinforcement Learning (ProRL)의 핵심 Challenge

    가장 큰 적: Entropy Collapse

    Entropy Collapse란?

    • AI가 학습하다가 갑자기 한 가지 답변 패턴에만 매달리는 현상
    • output distribution이 특정 답변에 과도하게 집중됨
    • 마치 학생이 한 가지 문제 풀이법만 외워서 다른 접근은 시도조차 안 하는 것

    발생 과정 (구체적 예시)

    초기 상태 (건강한 다양성):
    - 해법 A: 30% 확률로 선택
    - 해법 B: 35% 확률로 선택  
    - 해법 C: 35% 확률로 선택
    
    Entropy Collapse 후:
    - 해법 A: 5% 확률
    - 해법 B: 5% 확률
    - 해법 C: 90% 확률 (거의 이것만 선택)

    왜 이렇게 될까?

    1. 초기 성공: 해법 C가 몇 번 좋은 결과를 냄
    2. Positive Feedback Loop: 성공한 해법만 계속 강화됨
    3. 다른 가능성 무시: A, B는 시도할 기회조차 잃음
    4. 악순환 완성: 더 이상 새로운 발견 불가능

    GRPO에서 특히 치명적인 이유

    • Group 비교가 핵심: 다양한 답변이 있어야 서로 비교 가능
    • 모두 같은 답만 하면 → 그룹 평균도 같아짐 → 학습 신호 사라짐
    • 마치 학급 전체가 같은 답안지를 베끼면 누가 잘했는지 알 수 없는 것과 같음

     

    Exploration의 중요성

    Exploration vs Exploitation

    • Exploitation (활용): 알고 있는 좋은 방법 계속 사용
    • Exploration (탐색): 새로운 방법들을 시도해보기
    • 일상 비유: 맛있는 단골 식당 vs 새로운 식당 도전

    AI 학습에서 Exploration이 중요한 이유

    1. 더 좋은 해법 발견: 현재 알고 있는 것보다 더 나은 방법이 있을 수 있음
    2. Robust성 확보: 다양한 상황에 대응할 수 있는 유연성
    3. 학습 신호 생성: 다양한 시도 → 다양한 결과 → 풍부한 비교 데이터

    장기 학습에서의 딜레마

    • 단기적: Exploration ↑ → Performance ↓ (당장은 실패 많음)
    • 장기적: Exploration ↑ → Performance ↑ (결국 더 나은 방법 발견)

     


     

    ProRL의 실제 해결 전략들

     

    1. High Rollout Temperature

    Temperature의 역할

    낮은 온도 (0.1): 가장 확실한 답만 선택 (보수적)
    높은 온도 (1.2): 불확실한 답도 자주 선택 (모험적)

    ProRL의 선택: Temperature 1.2

    • 기존보다 훨씬 높은 값 사용
    • "좀 더 모험적으로 답해봐" 라고 AI를 격려
    • 하지만 이것만으로는 entropy collapse를 지연시킬 뿐, 완전 방지는 불가능

     

    2. Decoupled Clipping

    기존 PPO의 대칭적 제한

    clip(ratio, 1-ε, 1+ε)  # 상한과 하한이 똑같음
    • 너무 보수적: 새로운 시도를 과도하게 억제

    ProRL의 비대칭 전략  ->"좋은 행동을 더 강하게 보상하자"

    clip(ratio, 1-ε_low, 1+ε_high)
    ε_high = 0.4, ε_low = 0.2  # 상한을 더 높게!

    실제 효과 예시:

    기존: 1% 확률 답변 → 최대 1.2%까지만 증가 가능
    개선: 1% 확률 답변 → 최대 1.4%까지 증가 가능
    • Clip-higher 효과: 평소 거의 안 선택하던 답변도 더 자유롭게 시도
      • Clip = 가위로 자르듯이 값을 범위 안에 제한하는 것 (너무 큰 값이나 작은 값을 "잘라내서" 안전한 범위로 만듦)
      • Higher = 위쪽 한계(상한선)을 더 높게 설정 (기존보다 더 큰 값까지 허용한다는 뜻)
    • Previously unlikely token uplift: 새로운 가능성들에 더 많은 기회 제공
      • 탐색(exploration)을 촉진하는 효과
      • 예상치 못한 좋은 토큰이 나왔을 때, 그 확률을 더 크게 증가시킬 수 있게 허용

     

    3. Dynamic Sampling

    학습 효율성 문제

    • 너무 쉬운 문제 (항상 100% 맞춤): 배울 게 없음
    • 너무 어려운 문제 (항상 0% 맞춤): 포기하게 됨
    • 적당한 문제 (50-80% 맞춤): 가장 학습 효과 높음

    Dynamic Filtering 전략

    • Accuracy 1.0 또는 0.0인 prompt들을 제거
    • Intermediate difficulty example에만 집중
    • 교육학적 비유: 학생 수준에 맞는 적절한 난이도 문제 제공

    왜 효과적인가?

    • 다양한 시도가 의미 있는 상황에서만 학습
    • Learning signal이 더 informative해짐
    • Training 안정성 향상

     

     

    4.  KL Regularization과 Reference Policy Reset

    1.  KL Regularization의 도입

    기존 방법들의 한계

    • Temperature, Decoupled Clipping, Dynamic Sampling으로도 entropy collapse를 완전히 막기는 어려움
    • 더 강력하고 직접적인 해결책 필요

    KL Divergence Penalty

    LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)

    이해하기 쉬운 해석:

    • LGRPO(θ): "더 좋은 답변을 하도록 학습해라"
    • βDKL(πθ||πref): "하지만 원래 모습에서 너무 멀어지지는 마라"
    • β: 얼마나 엄격하게 제한할지 정하는 강도 조절 knob

    이중 효과

    1. Entropy 직접 보존: Distribution이 너무 peaked되는 것 방지
    2. Training 안정화:
      • Spurious reward signal에 대한 overfitting 방지
      • 너무 급진적인 변화 억제

    2. KL Penalty 논쟁

    반대 진영의 주장

    • Recent work들: "KL penalty 없애는 게 맞다"
    • 근거: "Chain-of-thought reasoning에서 model이 naturally diverge하는 게 정상"

    ProRL 팀의 반박

    Context가 다르다는 주장:

    • 기존 연구: Base model (아무 fine-tuning 안 한 상태)에서 시작
    • ProRL: Well-initialized checkpoint에서 시작
      • DeepSeek-R1-Distill-Qwen-1.5B 사용
      • 이미 coherent CoT output 생성 가능한 상태
    • 결론: 이미 잘 훈련된 모델에서는 KL penalty가 여전히 유용

     

    3. Reference Policy Reset

    새로운 문제: KL Term Dominance

    시간이 지나면서...
    LKL-RL(θ) = LGRPO(θ) - βDKL(πθ||πref)
                           ↑
                      이 부분이 점점 커짐
    • KL penalty가 loss를 점점 더 dominate
    • Policy update가 거의 안 됨 (diminishing effect)
    • "참조 모델과 너무 달라지지 마라"는 제약이 너무 강해짐

    Reference Policy Reset 해결책

    핵심 아이디어:

    • 주기적으로 reference policy πref를 현재 모델로 업데이트
    • "이제 너의 새로운 모습이 기준이야" 하고 새 출발점 제공

    구체적 구현:

    1. Hard Reset: πref ← πθ (현재 모델을 새로운 참조점으로)
    2. Optimizer State 재초기화: 완전히 새로운 시작
    3. 주기적 적용: Training 전반에 걸쳐 반복

    최종 효과

    • 지속적 발전: 계속 새로운 기준점으로 성장 가능
    • 안정성 유지: KL regularization의 benefit은 그대로
    • Premature convergence 방지: 조기 수렴 없이 prolonged training 달성

     

    5 전체적인 시너지 효과

    각 Component들의 역할 분담

    1. High Temperature: 초기 다양성 확보
    2. Decoupled Clipping: 새로운 시도에 더 많은 기회
    3. Dynamic Sampling: 의미 있는 학습 상황에만 집중
    4. KL Regularization: 안정성과 entropy 동시 보장
    5. Reference Reset: 지속적 발전 가능하게 만듦

    결과적 성취

    • 1.5B parameter model이 7B model과 comparable performance
    • Novel reasoning capability 발현: 기존에 없던 추론 방법 개발
    • Genuine capability expansion: 단순 amplification이 아닌 진짜 능력 확장
    • Strong out-of-distribution performance: 다양한 exploration 덕분

    이 모든 것이 결합되어 "오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는" ProRL을 완성한 것임.

     


    개인적 감상 

     

    • DAPO에서도 그렇고, GRPO의 대칭적 clipping 기법을 개선하는 Decoupling Clipping 방식이 제시됐네 
    • S1 논문에서는 Train-Time이 줄이는 방식을 택했는데, ProRL 논문에서는 오래 안정적으로 학습하면서도 창의성과 다양성을 잃지 않는 방식으로다가 학습 

     

    +) 거의 같아보이는 논문이 NVIDIA에서 또 나왔네 

    https://arxiv.org/abs/2507.12507

     

    Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training

    Recent advancements in reasoning-focused language models such as OpenAI's O1 and DeepSeek-R1 have shown that scaling test-time computation-through chain-of-thought reasoning and iterative exploration-can yield substantial improvements on complex tasks like

    arxiv.org

     

    728x90
Designed by Tistory.