전체 글
-
Understanding Reasoning LLMs 번역AI/NLP 2025. 8. 10. 10:47
[원문] https://magazine.sebastianraschka.com/p/understanding-reasoning-llms 추론 LLM 이해하기이 아티클은 추론 모델을 구축하는 네 가지 주요 접근법, 즉 LLM에 추론 능력을 향상시키는 방법에 대해 설명함. 이 글이 가치 있는 통찰을 제공하고 이 주제를 둘러싼 빠르게 발전하는 문헌과 과대광고를 탐색하는 데 도움이 되길 바람.2024년에 LLM 분야는 점점 더 전문화되는 모습을 보임. 사전 훈련과 파인튜닝을 넘어서, RAG부터 코드 어시스턴트까지 전문화된 애플리케이션의 부상을 목격함. 이 트렌드가 2025년에도 가속화될 것으로 예상되며, 도메인과 애플리케이션 특화 최적화(즉, "전문화")에 더욱 중점을 둘 것임.1-3단계가 LLM 개발의 일반적..
-
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들AI/NLP 2025. 7. 26. 21:24
MoE (Mixture of Experts) 알아보기 2 - 최신 MoE 기반의 LLM들 DeepSeek-V2: 대규모 MoE 기반 LLM의 효율적 확장DeepSeek-V2는 DeepSeek-AI에서 공개한 Mixture-of-Experts(MoE) 구조의 대규모 언어 모델2360억개의 파라미터 중 210억개만 토큰마다 활성화되는 스파스(sparse) LLM모델 아키텍처 핵심은 두 가지 혁신으로 요약1) MLA (Multi-Head Latent Attention) – 키/밸류(KV) 캐시를 저차원 잠재 벡터로 압축하여 긴 문맥 추론 시 메모리와 속도 병목을 제거(2) DeepSeekMoE – 피드포워드 층을 전부 MoE 레이어로 대체하여 훈련 비용을 낮추면서 높은 표현력을 확보한 점 DeepSee..
-
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?)AI/NLP 2025. 7. 26. 21:22
MoE (Mixture of Experts) 알아보기 1 - 원리와 구성 요소 (feat. 몇 개의 전문가를 활성화해야 최적일까?) 최근 대형 언어 모델(LLM) 구조를 살펴보다 보면 이런 모델 이름이 자주 보입니다:Qwen-235B-A22B, DeepSeek-V2-MoE, Kimi-K2, SwitchTransformer …겉보기엔 수백억~수조 개의 파라미터를 가진 엄청난 모델이지만,실제로 추론 시에는 수십억 개 파라미터만 계산에 참여한다고 합니다.“어떻게 이런 게 가능하지?”답은 바로 MoE(Mixture of Experts) 구조에 있습니다. 기존에는 어땠는데 ? 기존 Transformer 구조에서 각 블록의 핵심은Self-Attention → FeedForward Layer (즉, Fully ..
-
REASONING EFFORT AND PROBLEM COMPLEXITY:A SCALING ANALYSIS IN LLMS (25.03) 논문 리뷰AI/NLP 2025. 7. 19. 19:06
"Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs" 논문 분석논문 기본 정보제목: Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs저자: Benjamin Estermann, Roger Wattenhofer (ETH Zurich)발표: ICLR 2025 Workshop on Reasoning and Planning for LLMsarXiv: 2503.15113 (2025.03)핵심 연구 질문"문제 복잡도가 증가할 때 LLM의 추론 노력(reasoning effort)이 어떻게 스케일링되는가?"실험 설계: Tents Puzzle왜 Tents Puzzle을 선택했나?..
-
강화학습 Chapter 07) Deep Reinforcement LearningAI/Reinforcement Learning 2025. 7. 19. 17:25
강화학습 Chapter 07) Deep Reinforcement Learning Approximation - Deep Q-Networks approximation방법 중에서 nonlinear function approximator로 deep neural network가 있다action-value function(q-value)를 approximate하는 방법으로 deep neural network를 택한 reinforcement learning방법이 Deep Reinforcement Learning(deepRL)또한 action value function뿐만 아니라 policy 자체를 approximate할 수도 있는데 그 approximator로 DNN을 사용해도 DeepRL! 두 가지 문제점 q햇은..
-
강화학습 Chapter 06) Value Function ApproximationAI/Reinforcement Learning 2025. 7. 19. 17:16
강화학습 Chapter 06) Value Function Approximation 이 부분이 현재 LLM에서의 Reinforcememt Learning과 가장 밀접한 부분인 듯 1. Tabular Methods이전까지 배운 것 → action value function을 table로 만들어 푼다→ state나 action이 작은 경우엔 가능 (grid world처럼!)⇒ 그러나 만약에 이 table이 더 커진다면, 즉 현실처럼 state가 무한대로 많은 경우라면, 저장하는 것도 문제고 개별적으로 학습하는 것도 문제 됨 generalization 필요함! 2. Approximation - Linear function⇒ "table로 작성하지 않고 w라는 새로운 변수를 사용하여 value function..
-
강화학습 Chapter 05) Model-free ControlAI/Reinforcement Learning 2025. 7. 19. 16:55
강화학습 Chapter 05) Model-free Control Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Control: 그 현재의 Value Function을 토대로 더 나은 policy를 구하고 이와 같은 과정을 반복하여 optimal policy를 구하는 것 ( = improvement)Recap - Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) MDP model을 몰라도 experience는 sampled될 수 있으며, MDP Model을 알아도 sampling이 없으면 방대한 양을 다 계산해야..
-
강화학습 Chapter 04) Model-free PredictionAI/Reinforcement Learning 2025. 7. 19. 16:54
강화학습 Chapter 04) Model-free Prediction Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Monte CarlosTemporal Difference→ Model free 방법에는 2가지 존재Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) 1. Monte Carlos Prediction⇒ "(1) episode를 끝까지 가본 후에 받은 reward들로 (2) 각 state의 value function들을 거꾸로 계산하여 Mean Return 받는 것 " [Update value V(S..