'AI/NLP' 카테고리의 글 목록

AI/NLP 2025. 8. 10. 10:47

[원문] https://magazine.sebastianraschka.com/p/understanding-reasoning-llms 추론 LLM 이해하기이 아티클은 추론 모델을 구축하는 네 가지 주요 접근법, 즉 LLM에 추론 능력을 향상시키는 방법에 대해 설명함. 이 글이 가치 있는 통찰을 제공하고 이 주제를 둘러싼 빠르게 발전하는 문헌과 과대광고를 탐색하는 데 도움이 되길 바람.2024년에 LLM 분야는 점점 더 전문화되는 모습을 보임. 사전 훈련과 파인튜닝을 넘어서, RAG부터 코드 어시스턴트까지 전문화된 애플리케이션의 부상을 목격함. 이 트렌드가 2025년에도 가속화될 것으로 예상되며, 도메인과 애플리케이션 특화 최적화(즉, "전문화")에 더욱 중점을 둘 것임.1-3단계가 LLM 개발의 일반적..

MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들

AI/NLP 2025. 7. 26. 21:24

MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들 DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM모델 아키텍처 핵심은 두 가지 혁신으로 요약1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거(2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점 DeepSee..

MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?)

AI/NLP 2025. 7. 26. 21:22

MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?) 최근 대형 언어 모델(LLM) 구조를 살펴보다 보면 이런 모델 이름이 자주 보입니다:Qwen-235B-A22B, DeepSeek-V2-MoE, Kimi-K2, SwitchTransformer …겉보기엔 수백억~수조 개의 파라미터를 가진 엄청난 모델이지만,실제로 추론 시에는 수십억 개 파라미터만 계산에 참여한다고 합니다.“어떻게 이런 게 가능하지?”답은 바로 MoE(Mixture of Experts) 구조에 있습니다. 기존에는 어땠는데 ? 기존 Transformer 구조에서 각 블록의 핵심은Self-Attention → FeedForward Layer (즉, Fully ..

REASONING EFFORT AND PROBLEM COMPLEXITY:A SCALING ANALYSIS IN LLMS (25.03) 논문 리뷰

AI/NLP 2025. 7. 19. 19:06

"Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs" 논문 분석논문 기본 정보제목: Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs저자: Benjamin Estermann, Roger Wattenhofer (ETH Zurich)발표: ICLR 2025 Workshop on Reasoning and Planning for LLMsarXiv: 2503.15113 (2025.03)핵심 연구 질문"문제 복잡도가 증가할 때 LLM의 추론 노력(reasoning effort)이 어떻게 스케일링되는가?"실험 설계: Tents Puzzle왜 Tents Puzzle을 선택했나?..

DAPO: An Open-Source LLM Reinforcement Learning System at Scale (25.03) 논문 리뷰

AI/NLP 2025. 7. 19. 16:38

DAPO: An Open-Source LLM Reinforcement Learning System at Scale (25.03) 논문 리뷰 DAPO란?DAPO = Decoupled Clip and Dynamic sAmpling Policy OptimizationByteDance, Tsinghua University, The University of Hong Kong가 공동 개발한 오픈소스 강화학습 시스템배경과 문제점기존 상황의 문제:OpenAI o1, DeepSeek R1 같은 최신 모델들이 강력한 성능을 보이지만 기술적 세부사항이 비공개연구 커뮤니티가 검증하고 발전시키기 어려운 상황기본 GRPO로는 AIME 2024에서 30점밖에 달성 못함 (목표 대비 크게 부족)GRPO의 4가지 핵심 문제점1...

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰

AI/NLP 2025. 7. 18. 23:10

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰 NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐..

LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들

AI/NLP 2025. 7. 13. 16:10

LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..

LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN

AI/NLP 2025. 7. 13. 15:30

LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN 최근 업무로 Agent를 하다 보니Tool Description 등으로 인해 Context Length가 불가피하게 길어지더라 32K로 열어두고 사용하고 있었는데 Tool Description만 22K라 Context length 늘리는 방법을 요즘 공부 중이다 크게 1) 모델이 원래 볼 수 있는 최대의 Context Length보다 더 늘릴 수 있는 방안(즉, 모델이 긴 입력을 이해하도록 하는)이 있고,두번째로 2) 긴 Context일 때도 추론이 느려지지 않도록 하는 방안 (긴 시퀀스에서 메모리 문제로 게산이 느려지기에)이 있음위치 임..

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로

티스토리툴바