-
S1: Simple Test-time scaling (25.01) 논문 리뷰AI/NLP 2025. 7. 6. 15:06728x90
S1: Simple Test-time scaling (25.01) 논문 리뷰

1. 테스트 타임 스케일링(Test‑time scaling) 개념

- RLHF 방식으로 모델을 강화학습 후, 모델은 자연어 생성 단계에서 답의 정답과 길이가 다시 길어지는 경향이 있음. 이는 모델이 플래닝, 추론, 리플렉션(self-reflection) 기능을 사용하기 때문임.
- 생성문 길이와 성능 간 높은 상관관계 존재 (생성문이 길어지면서 올바린 문장 생성을 위한 부가적인 기능 발현)
- DeepSeek R1에서도 관련된 내용 있음
- “아하 순간(aha moment)”은 모델이 스스로 해결 방식을 반성하며 수정하는 순간이고, 이때 출력 문장이 확장된다는 점이 주목됨.

2. S1 논문의 핵심 의문
- “강화학습 없이도, 단순하게 길고 다양한 chain‑of‑thought(CoT) 형식을 학습시키면 유사한 성능이 나오지 않을까?”
- 또는 학습 없이도 길고 다양한 요소가 포함된 reasoning 능력이 강화학습이 아니더라도, SFT로도 발현될 수 있지 않을까?

3. 데이터 구축: S1K (1,000개 샘플)
- 원 데이터 풀 59,000개 중 품질, 난이도, 다양성 기준으로 선별
- 품질: 품질 낮거나 중복되거나 그림 참조 등 불필요한 샘플 제거
- 난이도: 두 모델 중 하나라도 맞추는 쉬운 문제 삭제
- 다양성: 다양한 도메인/주제 포함, 긴 CoT 중심으로 가중 샘플링
- 최종 1,000개 샘플(S1K) 확보
4. Budget Forcing (예측 시간 조절 트릭)
- 일반적으로 언어 모델은 최대한 빨리 답을 생성하려는 경향이 있으며, 이는 복잡한 문제를 해결하는 데 있어 충분한 사고를 거치지 않고 성급한 결론을 내리는 문제를 초래할 수 있음
- 연구팀은 이 문제를 해결하기 위해 두 가지 기법을 적용
- 첫째, 모델이 일정한 토큰 수 이상을 생성할 때까지 사고 과정을 유지하도록 설정하여, 모델이 충분한 사고를 거친 후 답을 생성하도록 유도
- 둘째, 모델이 답을 생성하려고 할 때 "Wait"이라는 추가적인 신호를 입력하여, 모델이 지금까지의 출력을 한 번 더 검토할 기회를 제공
- 연구팀은 이 문제를 해결하기 위해 두 가지 기법을 적용

- Budget : 생성한 토큰의 길이. 문제 해결을 위해 사용할 연산량의 규모
- Budget Forcing : 모델에게 사전에 정해진 Budget에 맞도록 생성 길이를 강제
- Sequential :
- 생성된 토큰의 길이가 짧을 경우 "Wait" 토큰을 삽입하여 추가 생성 진행
- Budget을 넘어가는 생성의 경우 "Final Answer:" 을 삽입하여 정답 생성 강요
- 길이 비교를 실험을 위해 진행된 방법론
- 학습 방법
- 길이 제한을 두고
- 최대 토큰 수에 도달하면 강제 종료하고 바로 답을 생성하게 만듦.
- 길이 연장은 모델이 끝내려 할 때 “Wait”을 덧붙여 CoT을 계속 이어가도록 유도.
- “Wait”을 덧붙 이면 모델이 생각을 검토·수정하면서 정확도를 높이는 효과를 냄.
- 길이 제한을 두고

- Budget Forcing을 진행하는 경우 모델이 스스로 Self-Reflection을 진행
- 추가된 Budget을 이용하여 Reasonig 능력 강화 가능함
- 강화학습 등의 추가 학습 없이도 강화학습 목적 일부 달성 가능
5. 실험 결과
- Qwen2.5‑32B‑Instruct 모델을 S1K로 기반 SFT만 진행 → S1‑32B 모델 완성
- 테스트 타임에서 budget forcing 적용 시 MATH, AIME24 문제에서 o1-preview (OpenAI) 대비 최대 +27% 향상, AIME24 정확도 50→57%로 상승 GitHubarXiv+8arXiv+8arXiv+8
- 단순하지만 효과적인 접근: 수백만 데이터나 복잡한 강화학습 없이도 높은 성능 달성 arXivarXiv
6. 추가 분석
- 각 필터 (quality/difficulty/diversity)가 없는 경우 S1K보다 성능 저하
- 원 데이터 전체 사용 시 S1K 대비 향상 미미
- dataset 선별과 budget forcing이 성능을 이끈 핵심 요인
결론 & 의미
S1 논문의 가장 놀라운 점은 매우 단순한 메커니즘만으로 test‑time scaling 효과를 유도했다는 것입니다.
- 손수 만든 1,000개 CoT dataset
- 테스트 타임에 “Wait”으로 유도하는 budget forcing
- 강화학습 없이 수월하게 o1-preview 수준 이상의 성능 달성
이는 작은 비용으로도 강력한 reasoning 언어 모델을 만들 수 있다는 점에서 실험적이자 실용적으로 큰 의의를 가집니다.
Recap. 핵심 정리 : 이건 꼭 기억하기 !
openai-python/src/openai/types/chat/completion_create_params.py at 44d6210f101abedeb2dd68507fcffcb329df70ea · openai/openai-pyt
The official Python library for the OpenAI API. Contribute to openai/openai-python development by creating an account on GitHub.
github.com
Ref.
ttps://arxiv.org/abs/2501.19393
s1: Simple test-time scaling
Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts.
arxiv.org
https://www.youtube.com/watch?v=D3lWvTwX8YU&t=1246s
https://discuss.pytorch.kr/t/s1-test-time-scaling/6060
s1: 테스트 시점 스케일링(Test-Time Scaling)을 단순하게 구현하는 방법에 대한 연구
s1: Simple Test-Time Scaling 연구 배경 최근 인공지능(AI) 기술이 급속도로 발전하면서, 대형 언어 모델(Large Language Model, LLM)의 활용이 점점 더 확대되고 있습니다. GPT-4o, Claude, Gemini와 같은 최신 모델들
discuss.pytorch.kr
https://github.com/simplescaling/s1
GitHub - simplescaling/s1: s1: Simple test-time scaling
s1: Simple test-time scaling. Contribute to simplescaling/s1 development by creating an account on GitHub.
github.com
https://hkust-nlp.notion.site/simplerl-reason
7B Model and 8K Examples: Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient | Notion
A replication of DeepSeek-R1 training on small models with limited data
hkust-nlp.notion.site
728x90'AI > NLP' 카테고리의 다른 글
[GPU/메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드) (0) 2025.07.06 [unsloth] LoRA Hyperparameters Guide 번역 (1) 2025.07.06 Reasoning LLM 논문 톺아보기 (RLVR == Reinforcement Learning with Verifiable Rewards) (0) 2025.07.06 AI Agent Architectures (2) 2025.06.15 [AI Agent] LangChain/LangGraph invoke()와 stream() (+ 그리고 How to stream tool calls) (0) 2025.05.24 - RLHF 방식으로 모델을 강화학습 후, 모델은 자연어 생성 단계에서 답의 정답과 길이가 다시 길어지는 경향이 있음. 이는 모델이 플래닝, 추론, 리플렉션(self-reflection) 기능을 사용하기 때문임.
이 텍스트는 S1 논문에 있던 OpenAI가 추론 시간에 컴퓨팅 자원을 어떻게 제어하는지에 대한 분석임.
📝 핵심 내용 해석
1. OpenAI의 "reasoning_effort" API
2. 실제 구현 추정
연구자들은 OpenAI가 단순히 프롬프트나 시스템 지시를 조정하는 방식으로 추론 노력을 제어한다고 추정함.
3. 실험 결과 (Table 14)
연구자들이 직접 테스트한 결과:
프롬프트 조정 방식:
문제점:
4. 제어 성공률 계산
실험 데이터:
결과: 2개 중 1개만 예상대로 작동 → 제어 성공률 50%
핵심 시사점
OpenAI의 한계
업계 전반의 과제
실무적 의미
이는 현재 "reasoning effort" 같은 기능들이 실제로는:
진정한 test-time compute scaling은 아직 연구 단계에 있다는 걸 보여주는 대목임.