-
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들AI/NLP 2025. 7. 26. 21:24728x90
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들
DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장
- DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델
- 2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM
- 모델 아키텍처 핵심은 두 가지 혁신으로 요약
- 1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거
- (2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점

- DeepSeekMoE
- FFN 대신 도입된 MoE 층에서는 각 층마다 64개의 전문가(Expert)가 존재하며 이 중 상위 6개 전문가만 토큰당 활성화
- 또한 2개의 공유 전문가를 별도로 두어 모든 토큰에 항상 적용되도록 함으로써, 공통 상식이나 일반 지식을 담당하게 설계
- Expert Choice (EC) 알고리즘으로 불리는 기법을 사용
- Expert Collapse를 방지하기 위해, 토큰을 다양한 전문가에 고르게 분배하도록 하는 보조 손실을 훈련에 도입

https://likejazz.com/deepseek-v3/
DeepSeek V3 MoE 구조 리뷰 · likejazz.com
HOME » ARTICLES » DeepSeek V3 MoE 구조 리뷰 DeepSeek V3 MoE 구조 리뷰 01 Apr 2025 딥시크 (DeepSeek) V3의 모델을 리뷰하고, 특히 MoE 구조 중심으로 정리한다. Apr 1, 2025 참고 DeepSeek V3 계열의 모델링 코드는 다음
likejazz.com
Kimi-K2: Moonshot AI의 1조 파라미터 에이전트형 LLM
- 2025년 Moonshot AI에서 발표한 초거대 혼합전문가 MoE 언어모델로, 총 1조 파라미터 중 320억만 활성화
- 극단적 sparsity (3.2% 사용) : DeepSeek-V2가 약 9%를 활성화했던 것과 비교하면 Kimi-K2는 약 3.2%만 사용하는 셈
- Kimi-K2의 기본 아키텍처를 살펴보면, Layer 61개 중 단 1개만 밀집 FFN이고 나머지를 MoE로 구성
- 각 MoE 층에는 384개의 전문가가 있으며 이 중 8개를 토큰당 선택
- 또한 각 층마다 1개의 공유 전문가를 두어 DeepSeek과 유사하게 공통 지식을 담당
- 로드 밸런싱 최적화를 통해 특정 전문가의 독점 현상을 방지
- 1조 파라미터 모델에서 3%만 쓰이는 극단적인 sparsity에도 불구하고, **특수한 최적화 기법(MuonClip 옵티마이저 등)**으로 훈련 불안정성을 억제하여 전문가들의 고른 활용
https://likejazz.com/llm-comparison/
LLM 아키텍처 비교 · likejazz.com
HOME » ARTICLES » LLM 아키텍처 비교 LLM 아키텍처 비교 01 Aug 2025 Aug 1, 2025 개요 그간 LLM 아키텍처에 대해 좋은 글을 많이 올려주던 세바스찬 라슈카가 이번에 본인의 서브스택에 유명 LLM 아키텍처 설
likejazz.com
Mixture-of-Recursions (MoR)
- 2025년 KAIST·Mila·Google 연구진이 제안한 새로운 LLM 아키텍처 패러다임
- 기존에는 파라미터 효율화를 위해 층 재활용 기법(예: ALBERT의 레이어 타이ying 등)이나, 계산 효율화를 위해 토큰별 조기 종료(early exiting) 등이 각각 연구돼왔지만, 두 측면을 단일 프레임워크에서 통합한 사례 거의 없었음
- MoR은 이를 위해 Recursive Transformer 도입
- 고정된 한 세트의 Transformer 레이어들을 여러 번 반복 적용하여 깊이를 증가시키되, 각 토큰마다 몇 번의 재귀를 거칠지를 경량 라우터가 동적으로 결정
- 쉽게 말해, 어떤 쉬운 토큰은 적은 단계만 처리하고 바로 종료하는 반면, 어려운 토큰은 같은 층셋을 여러 번 통과하며 더 깊은 표현을 얻도록
- **토큰별 가변 처리(depth-adaptive)**는 MoE의 “전문가 선택” 개념을 *“계산 횟수 선택”*으로 확장한 것으로 볼 수 있음
- MoE에서는 여러 병렬 전문가 중 일부를 선택했다면, MoR에서는 하나의 공유 전문가(레이어 스택)를 몇 번 반복할지를 토큰별로 조절
- 따라서 모델 파라미터 수는 공유로 억제되면서도, 토큰마다 필요한만큼 연산을 할당하여 효율을 극대화
- MoR 구조에서 라우팅 메커니즘은 다음과 같음
- 입력 토큰들이 최초 재귀 1단계를 모두 거친 뒤, 경량 라우터가 각 토큰의 상태를 평가하여 “추가 연산이 필요한지” 여부를 결정
- 추가 연산이 필요하다고 판단된 토큰들만 재귀 2단계(같은 레이어 세트를 다시 적용)에 투입되고, 그렇지 않은 토큰들은 일찍 종료되어 더 이상 처리하지 않음
- 이 과정을 최대 N번 반복하며 (토큰마다 다를 수 있음), 각 재귀 단계마다 남은 토큰끼리만 Self-Attention을 수행함
- 이때 주목할 점은, 재귀 단계가 깊어질수록 토큰 수가 감소하므로 쿼드러틱 자원 소모의 어텐션 연산량이 자동으로 경감된다는 것
- 또한 각 단계에서 해당 단계까지 남은 토큰들의 KV 캐시만 유지하면 되므로, 메모리 사용도 효율적으로 관리
- 연구진은 추가로, KV Sharing이라는 변형을 제안하여 첫 재귀 단계의 KV를 이후 단계들이 재활용하도록 함으로써 초기 프리필(prefill) 지연 시간을 크게 줄이는 방법도 소개
- MoR의 이러한 설계는 파라미터 재활용(parameter sharing)과 동적 계산 할당(adaptive compute)을 완벽히 결합한 것으로, *사실상 “필요할 때만 깊어지는 Transformer”*를 구현한 셈
Ref.
deepseek-ai/DeepSeek-V2 · Hugging Face
Model Download | Evaluation Results | Model Architecture | API Platform | License | Citation Paper Link👁️ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 1. Introduction Today, we’re introducing DeepSeek-V2, a stro
huggingface.co
https://medium.com/@niejam/deep-dive-into-moe-routing-in-deepseek-1fa6f4777097
Deep Dive into MoE Routing in DeepSeek
Editor: KNB
medium.com
https://github.com/MoonshotAI/Kimi-K2
GitHub - MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI team
Kimi K2 is the large language model series developed by Moonshot AI team - MoonshotAI/Kimi-K2
github.com
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
Scaling language models unlocks impressive capabilities, but the accompanying computational and memory demands make both training and deployment expensive. Existing efficiency efforts typically target either parameter sharing or adaptive computation, leavi
arxiv.org
728x90'AI > NLP' 카테고리의 다른 글
- DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델