Moe
-
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들AI/NLP 2025. 7. 26. 21:24
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들 DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM모델 아키텍처 핵심은 두 가지 혁신으로 요약1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거(2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점 DeepSee..
-
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?)AI/NLP 2025. 7. 26. 21:22
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?) 최근 대형 언어 모델(LLM) 구조를 살펴보다 보면 이런 모델 이름이 자주 보입니다:Qwen-235B-A22B, DeepSeek-V2-MoE, Kimi-K2, SwitchTransformer …겉보기엔 수백억~수조 개의 파라미터를 가진 엄청난 모델이지만,실제로 추론 시에는 수십억 개 파라미터만 계산에 참여한다고 합니다.“어떻게 이런 게 가능하지?”답은 바로 MoE(Mixture of Experts) 구조에 있습니다. 기존에는 어땠는데 ? 기존 Transformer 구조에서 각 블록의 핵심은Self-Attention → FeedForward Layer (즉, Fully ..