NLP
-
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들AI/NLP 2025. 7. 26. 21:24
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들 DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM모델 아키텍처 핵심은 두 가지 혁신으로 요약1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거(2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점 DeepSee..
-
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?)AI/NLP 2025. 7. 26. 21:22
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?) 최근 대형 언어 모델(LLM) 구조를 살펴보다 보면 이런 모델 이름이 자주 보입니다:Qwen-235B-A22B, DeepSeek-V2-MoE, Kimi-K2, SwitchTransformer …겉보기엔 수백억~수조 개의 파라미터를 가진 엄청난 모델이지만,실제로 추론 시에는 수십억 개 파라미터만 계산에 참여한다고 합니다.“어떻게 이런 게 가능하지?”답은 바로 MoE(Mixture of Experts) 구조에 있습니다. 기존에는 어땠는데 ? 기존 Transformer 구조에서 각 블록의 핵심은Self-Attention → FeedForward Layer (즉, Fully ..
-
REASONING EFFORT AND PROBLEM COMPLEXITY:A SCALING ANALYSIS IN LLMS (25.03) 논문 리뷰AI/NLP 2025. 7. 19. 19:06
"Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs" 논문 분석논문 기본 정보제목: Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs저자: Benjamin Estermann, Roger Wattenhofer (ETH Zurich)발표: ICLR 2025 Workshop on Reasoning and Planning for LLMsarXiv: 2503.15113 (2025.03)핵심 연구 질문"문제 복잡도가 증가할 때 LLM의 추론 노력(reasoning effort)이 어떻게 스케일링되는가?"실험 설계: Tents Puzzle왜 Tents Puzzle을 선택했나?..
-
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰AI/NLP 2025. 7. 18. 23:10
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 논문 리뷰 NVIDIA에서 개발했으며, 2,000 훈련 스텝 이상의 장기간 RL 훈련을 통해 기본 모델에서는 접근할 수 없었던 새로운 추론 전략을 발견할 수 있다고 주장ProRL은 "RL이 정말로 모델의 추론 능력을 확장하는가, 아니면 단지 기존 능력을 최적화하는가?"라는 근본적 질문에 답하려고 함기존 연구들에서는 RL training이 주로 기존 지식의 optimizer 역할였다고 함 그런데 이 연구들, 1) 특정 도메인, 특히 수학 같은 도메인에만 너무 집중되어 있고, 2) 수백 스텝으로 너무 짧은 RL 훈련했음 (S1 같은 것만 봐..
-
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들AI/NLP 2025. 7. 13. 16:10
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..
-
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRNAI/NLP 2025. 7. 13. 15:30
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN 최근 업무로 Agent를 하다 보니Tool Description 등으로 인해 Context Length가 불가피하게 길어지더라 32K로 열어두고 사용하고 있었는데 Tool Description만 22K라 Context length 늘리는 방법을 요즘 공부 중이다 크게 1) 모델이 원래 볼 수 있는 최대의 Context Length보다 더 늘릴 수 있는 방안(즉, 모델이 긴 입력을 이해하도록 하는)이 있고,두번째로 2) 긴 Context일 때도 추론이 느려지지 않도록 하는 방안 (긴 시퀀스에서 메모리 문제로 게산이 느려지기에)이 있음위치 임..
-
Reasoning LLM 논문 톺아보기 (RLVR == Reinforcement Learning with Verifiable Rewards)AI/NLP 2025. 7. 6. 14:55
0. 들어가기 전 : Before Reasoning 강화학습은 이미 LLM을 학습할 떄 적용하고 있었지만 주로 Alignment, 즉 인간의 만족도/답변의 안전성 등 사용성 측면을 위함 우리가 흔히 아는 PPO, DPO와 같은 학습 방법론이 그러하듯따라서 우리는 이것들을 RLHF, Reinforcement Learning with Human Feedback이라고 했음 기존 RLHF에서는 인간 피드백이 주관적이고 일관성이 떨어질 수 있음https://asidefine.tistory.com/280 LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원..
-
[AI Agent] Agent와 LangChain AgentExecutor (+ ToolFormer, ReAct, CodeAct Agent)AI/NLP 2025. 5. 24. 11:56
[AI Agent] Agent와 LangChain AgentExecutor (+ ToolFormer, ReAct, CodeAct Agent) Agent란?에이전트는 사전에 정의된 규칙이나 명시적인 프로그래밍 없이도 스스로 결정을 내리고 행동구성AI ModelCapabilities and ToolsLangChain에서 에이전트는 다음과 같은 구성요소로 이루어져 있습니다:Agent: 의사 결정을 담당하는 핵심 컴포넌트입니다.Tools: 에이전트가 사용할 수 있는 기능들의 집합입니다.Toolkits: 관련된 도구들의 그룹입니다.AgentExecutor: 에이전트의 실행을 관리하는 컴포넌트입니다.(1) Tool & Tool BindingTool이 가져야 하는 것함수가 수행하는 작업에 대한 텍스트 설명Argume..