AI
-
[Multimodal/VLM] A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges (25.01)AI/Multimodal 2025. 8. 10. 11:16
[Multimodal/VLM] A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges (25.01) +) GPT 5의 Deep Research가 필요한 부분 보충해줌 http://arxiv.org/abs/2501.02189 A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and ChallengesMultimodal Vision Language Models (VLMs) have emerged as a transformative topic at the i..
-
[2025 강화학습 Recap] Chapter 7. Deep Reinforcement LearningAI/Reinforcement Learning 2025. 8. 10. 10:52
[2025 강화학습 Recap] Chapter 7. Deep Reinforcement Learning 지금까지 우리는 가치함수를 중심으로 강화학습을 이해해왔음. 상태의 가치를 정확히 추정하고, 그를 바탕으로 최선의 행동을 선택하는 방식이었음. 하지만 잠깐, 정말로 가치함수가 필요할까? 우리의 궁극적 목표는 최적 정책을 찾는 것인데, 굳이 가치함수라는 중간 단계를 거쳐야 할까?때로는 더 직접적인 접근이 효과적일 수 있음. 마치 목적지에 가는 데 지도를 자세히 그리는 대신 바로 방향을 찾아가는 것처럼 말임. 특히 연속 행동 공간에서는 "어떤 행동이 얼마나 좋은가"를 모두 계산하기보다는 "어떤 행동을 선택할 확률을 높일까"를 직접 학습하는 것이 더 자연스러움.이것이 바로 정책 경사법(Policy Gradien..
-
[2025 강화학습 Recap] Chapter 6. Value Function ApproximationAI/Reinforcement Learning 2025. 8. 10. 10:52
[2025 강화학습 Recap] Chapter 6. Value Function Approximation 지금까지의 여정을 돌아보면, 우리는 강화학습의 완벽한 이론적 토대를 구축했음. MDP로 문제를 정의하고, Dynamic Programming으로 이상적 해법을 찾고, Model-free 방법으로 현실적 학습을 구현했음. 하지만 모든 것이 하나의 큰 가정 위에 세워져 있었음. 바로 상태와 행동의 개수가 충분히 작아서 테이블로 관리할 수 있다는 것.현실은 그렇지 않음. 자율주행차가 마주하는 상황의 수는? 바둑판의 가능한 배치는? 로봇이 취할 수 있는 연속적인 행동은? 이런 문제들 앞에서 테이블 기반 방법은 무력해짐. 메모리도 부족하고, 학습 시간도 천문학적으로 늘어남.하지만 인간은 어떻게 복잡한 상황을 처..
-
[2025 강화학습 Recap] Chapter 5. Model-Free ControlAI/Reinforcement Learning 2025. 8. 10. 10:51
[2025 강화학습 Recap] Chapter 5. Model-Free Control Chapter 4에서 주어진 정책의 가치를 추정하는 방법을 배웠지만, 여전히 핵심 질문이 남아있음. "이제 가치를 구할 수 있으니, 어떻게 더 나은 정책을 찾을까?"지금까지는 "이 정책을 따르면 얼마나 좋을까?"라는 평가 문제만 해결했음. 하지만 강화학습의 진짜 목표는 "어떤 정책이 가장 좋을까?"를 찾는 것임. 환경의 모델도 모르는 상황에서 어떻게 최적 정책을 학습할 수 있을까?답은 Chapter 3에서 배운 Generalized Policy Iteration 구조에 있음. 평가(Evaluation)와 개선(Improvement)을 반복하되, 이제 모든 것을 실제 경험으로 대체하는 것임. 하지만 여기에는 새로운 도전이..
-
[2025 강화학습 Recap] Chapter 4. Model-Free PredictionAI/Reinforcement Learning 2025. 8. 10. 10:50
[2025 강화학습 Recap] Chapter 4. Model-Free Prediction Chapter 3에서 Dynamic Programming의 우아한 이론을 배웠지만, 현실 세계로 나오면 벽에 부딪힘. 자율주행차가 "비 올 때 브레이크 밟으면 미끄러질 확률이 정확히 0.23"이라고 미리 알 수 있을까? 게임 AI가 상대방의 모든 전략과 확률을 사전에 계산할 수 있을까?대부분의 실제 문제에서는 환경의 완벽한 모델을 알 수 없음. 전이확률 P(s'|s,a)도, 보상함수 R(s,a)도 모르는 상황에서 어떻게 학습할 수 있을까?답은 간단함. "모르면 직접 해보자." 모델을 추측하는 대신 환경과 실제로 상호작용하면서 경험을 쌓고, 그 경험으로부터 가치함수를 추정하는 것. 이것이 바로 Model-free ..
-
[2025 강화학습 Recap] Chapter 3. Model-based Prediction & ControlAI/Reinforcement Learning 2025. 8. 10. 10:50
[2025 강화학습 Recap] Chapter 3. Model-based Prediction & Control Chapter 2에서 MDP의 수학적 구조와 벨만 방정식을 배웠지만, 한 가지 중요한 질문이 남아있음. "이론적으로는 완벽하지만, 실제로는 어떻게 풀까?"벨만 방정식은 최적 정책과 최적 가치 함수가 만족해야 하는 조건을 명확하게 제시하지만, 이를 직접 계산하는 방법은 별도로 필요함. 마치 "x² = 4"라는 방정식이 해가 ±2라는 걸 알려주지만, 실제로 그 해를 구하는 과정은 따로 있는 것과 같음.이 장에서는 가장 이상적인 조건에서 MDP를 푸는 방법인 동적계획법(Dynamic Programming)을 다룸. 여기서 "이상적"이라는 것은 환경의 모델(전이확률과 보상함수)을 완벽하게 알고 있다는 ..
-
[2025 강화학습 Recap] Chapter 2: Markov Decision ProcessesAI/Reinforcement Learning 2025. 8. 10. 10:48
[2025 강화학습 Recap] Chapter 2: Markov Decision Processes 강화학습의 핵심은 불확실한 환경에서 순차적 의사결정을 통해 누적 보상을 최대화하는 것임. 하지만 이런 문제를 어떻게 수학적으로 표현하고 분석할 수 있을까?이 장에서는 강화학습 문제를 정형화하는 표준 프레임워크인 마르코프 결정 과정(Markov Decision Process, MDP)을 다룸. MDP는 에이전트와 환경 간의 상호작용을 상태, 행동, 보상, 전이확률이라는 명확한 수학적 개념으로 모델링함.MDP의 핵심 가정인 마르코프 성질부터 시작해서, 정책과 가치함수의 정의, 그리고 최적해를 특성화하는 벨만 방정식까지 살펴볼 예정임. 이러한 이론적 토대는 이후 장에서 다룰 모든 강화학습 알고리즘의 근간이 됨.단..
-
[2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement LearningAI/Reinforcement Learning 2025. 8. 10. 10:48
[2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement Learning 1. 강화학습의 기본 개념인공지능이 체스에서 세계 챔피언을 이기고, 복잡한 비디오 게임을 마스터하며, 자율주행차를 운전하는 모습을 본 적이 있을 것임. 이런 성과들의 공통점은 무엇일까? 바로 시행착오를 통해 스스로 학습한다는 점임.강화학습은 정답이 주어지지 않은 상황에서 환경과의 상호작용을 통해 최적의 행동을 학습하는 방법임. 지도학습처럼 "이것이 정답이다"라고 알려주는 대신, 오직 "좋다" 또는 "나쁘다"는 보상 신호만으로 학습함. 마치 아기가 걸음마를 배우듯, 넘어지고 일어서기를 반복하면서 점점 더 나은 방법을 찾아가는 과정임.이 장에서는 강화학습의 기본 개념과 구조를 전반적으로..