deepseek
-
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들AI/NLP 2025. 7. 26. 21:24
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들 DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM모델 아키텍처 핵심은 두 가지 혁신으로 요약1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거(2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점 DeepSee..
-
Reasoning LLM 논문 톺아보기 (RLVR == Reinforcement Learning with Verifiable Rewards)AI/NLP 2025. 7. 6. 14:55
0. 들어가기 전 : Before Reasoning 강화학습은 이미 LLM을 학습할 떄 적용하고 있었지만 주로 Alignment, 즉 인간의 만족도/답변의 안전성 등 사용성 측면을 위함 우리가 흔히 아는 PPO, DPO와 같은 학습 방법론이 그러하듯따라서 우리는 이것들을 RLHF, Reinforcement Learning with Human Feedback이라고 했음 기존 RLHF에서는 인간 피드백이 주관적이고 일관성이 떨어질 수 있음https://asidefine.tistory.com/280 LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원..