전체 글
-
DAPO: An Open-Source LLM Reinforcement Learning System at Scale (25.03) 논문 리뷰AI/NLP 2025. 7. 19. 16:38
DAPO: An Open-Source LLM Reinforcement Learning System at Scale (25.03) 논문 리뷰 DAPO란?DAPO = Decoupled Clip and Dynamic sAmpling Policy OptimizationByteDance, Tsinghua University, The University of Hong Kong가 공동 개발한 오픈소스 강화학습 시스템배경과 문제점기존 상황의 문제:OpenAI o1, DeepSeek R1 같은 최신 모델들이 강력한 성능을 보이지만 기술적 세부사항이 비공개연구 커뮤니티가 검증하고 발전시키기 어려운 상황기본 GRPO로는 AIME 2024에서 30점밖에 달성 못함 (목표 대비 크게 부족)GRPO의 4가지 핵심 문제점1...
-
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰AI/NLP 2025. 7. 18. 23:10
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰 NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐..
-
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들AI/NLP 2025. 7. 13. 16:10
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..
-
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRNAI/NLP 2025. 7. 13. 15:30
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN 최근 업무로 Agent를 하다 보니Tool Description 등으로 인해 Context Length가 불가피하게 길어지더라 32K로 열어두고 사용하고 있었는데 Tool Description만 22K라 Context length 늘리는 방법을 요즘 공부 중이다 크게 1) 모델이 원래 볼 수 있는 최대의 Context Length보다 더 늘릴 수 있는 방안(즉, 모델이 긴 입력을 이해하도록 하는)이 있고,두번째로 2) 긴 Context일 때도 추론이 느려지지 않도록 하는 방안 (긴 시퀀스에서 메모리 문제로 게산이 느려지기에)이 있음위치 임..
-
GPU 메모리 대역폭 - V100, A100, H100 중심AI 2025. 7. 6. 18:42
GPU 메모리 대역폭 - V100, A100, H100 중심 1. GPU 메모리 대역폭이란?GPU의 메모리 구조:[GPU 칩] [메모리 (HBM/GDDR)] | |CUDA 코어들 모델 가중치텐서 코어들 활성화 데이터 KV 캐시 대역폭의 의미:GPU 칩이 메모리와 초당 주고받을 수 있는 데이터양= 얼마나 빨리 모델 데이터를 읽고 쓸 수 있는가 2. V100, A100, H100의 메모리 대역폭 비교V100HBM216/32GB900 GB/s2017A100 40GBHBM2e40GB1,555 GB/s2020A100 80GBHBM2..
-
[GPU] NVIDIA GPU 세대별 비교표AI 2025. 7. 6. 16:41
NVIDIA GPU 세대별 비교표 회사 들어오고 나서의 최고 장점은 뭐니뭐니 해도 빵빵한 GPU 클러스터를 지원 받는다는 점이다 클라우드 하는 우리 회사야 고맙다 1. GPU 아키텍처 기초 용어 설명 1.1 NVIDIA 아키텍처 진화표아키텍처 출시년 라인업 주요 혁신 대표 모델Maxwell2014게이밍전력 효율 혁신GTX 980, GTX 970Pascal2016게이밍/AI16nm 공정, HBM 메모리GTX 1080, P100Volta2017AI 전용텐서 코어 최초 도입V100Turing2018게이밍RT 코어, DLSS 1.0RTX 2080, RTX 2070Ampere2020게이밍/AI3세대 텐서, TF32/BF16RTX 3090, A100Ada Lovelace2022게이밍DLSS 3.0, AV..
-
[GPU/메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드)AI/NLP 2025. 7. 6. 15:51
[메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드) 들어가기 전 간단한 계산 정도는 아래 포스트에서 대충 적어놨었다 (https://asidefine.tistory.com/317)하지만 어렴풋한 감으로 하는 것보다 원리부터 다시 ! 1. 핵심 개념 정리1.1 메모리 구성 요소공통 요소:- 모델 파라미터: 실제 가중치- 입력 데이터: 배치 처리용 토큰들- 시스템 오버헤드: 프레임워크 메모리추론 전용:- KV 캐시: 생성 속도 향상용 캐시학습 전용:- 그래디언트: 역전파용 기울기- 옵티마이저 상태: Adam/SGD 내부 상태- 중간 활성화: 역전파용 순전파 결과1.2 데이터 정밀도정밀도 바이트 메모리 비율 성능 영향FP324100%기준FP16250%거의 ..
-
[unsloth] LoRA Hyperparameters Guide 번역AI/NLP 2025. 7. 6. 15:30
[unsloth] LoRA Hyperparameters Guide 번역 나중에 LoRA로 튜닝할 때 써먹을 것 LoRA 하이퍼파라미터 가이드개요LoRA 하이퍼파라미터 모범 사례파인튜닝 프로세스에 미치는 영향 분석핵심 개념수백만 가지 하이퍼파라미터 조합 존재올바른 값 선택이 파인튜닝 성공의 핵심수백 개 연구 논문 및 실험 결과 기반목표: 정확도 향상 + 과적합 방지과적합: 모델이 데이터 암기 → 새로운 질문 처리 어려움지향점: 암기가 아닌 일반화 모델학습률 (Learning Rate)정의: 모델 가중치의 훈련 단계별 조정 정도높은 학습률빠른 훈련 속도과적합 감소 효과주의사항: 너무 높으면 과적합 발생낮은 학습률안정적인 훈련 과정더 많은 에포크 필요일반적인 범위: 1e-4 (0.0001) ~ 5e-5 ..