AI/Reinforcement Learning
-
강화학습 Chapter 06) Value Function ApproximationAI/Reinforcement Learning 2025. 7. 19. 17:16
강화학습 Chapter 06) Value Function Approximation 이 부분이 현재 LLM에서의 Reinforcememt Learning과 가장 밀접한 부분인 듯 1. Tabular Methods이전까지 배운 것 → action value function을 table로 만들어 푼다→ state나 action이 작은 경우엔 가능 (grid world처럼!)⇒ 그러나 만약에 이 table이 더 커진다면, 즉 현실처럼 state가 무한대로 많은 경우라면, 저장하는 것도 문제고 개별적으로 학습하는 것도 문제 됨 generalization 필요함! 2. Approximation - Linear function⇒ "table로 작성하지 않고 w라는 새로운 변수를 사용하여 value function..
-
강화학습 Chapter 05) Model-free ControlAI/Reinforcement Learning 2025. 7. 19. 16:55
강화학습 Chapter 05) Model-free Control Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Control: 그 현재의 Value Function을 토대로 더 나은 policy를 구하고 이와 같은 과정을 반복하여 optimal policy를 구하는 것 ( = improvement)Recap - Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) MDP model을 몰라도 experience는 sampled될 수 있으며, MDP Model을 알아도 sampling이 없으면 방대한 양을 다 계산해야..
-
강화학습 Chapter 04) Model-free PredictionAI/Reinforcement Learning 2025. 7. 19. 16:54
강화학습 Chapter 04) Model-free Prediction Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Monte CarlosTemporal Difference→ Model free 방법에는 2가지 존재Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) 1. Monte Carlos Prediction⇒ "(1) episode를 끝까지 가본 후에 받은 reward들로 (2) 각 state의 value function들을 거꾸로 계산하여 Mean Return 받는 것 " [Update value V(S..
-
강화학습 Chapter 03) Model-based PlanningAI/Reinforcement Learning 2023. 4. 12. 23:14
강화학습 Chapter 03) Model-based Planning 이 중, 오른편에 속하는 Model Based RL를 공부한다 목차 Dynamic ProgrammingPrediction (evaluation)Iterative Policy EvaluationControlPolicy IterationValue Iteration 내용 Model-based : Model을 알고 있음 (= 즉 transition function을 알고 있다)Planning : 환경에 대한 model를 알고 있고, agent는 외부적인 상호작용을 하지 않은 채 그 model에 대해 계산한다⇒ Dynamic Programming! ⇒ state value function을 적용하였을 때보다 action val..
-
강화학습 Chapter 02) Markov Decision ProcessAI/Reinforcement Learning 2023. 4. 12. 22:49
강화학습 Chapter 02) Markov Decision Process 목차 Markov Property State Transition MatrixMarkov Process(=Chain) Markov Reward Process (Discounted) ReturnValue Function - State Value FunctionBellman Equation for MRPs Markov Decision Process Bellman Expectation Equation PoliciesValue Function Bellman Optimality Equation Optimal PoliciesOptimal Value Function 내용 1. Markov Property ⇒ " 어떤 상태 S는 Mar..
-
강화학습 Chapter 01) Reinforcement Learning OverviewAI/Reinforcement Learning 2023. 4. 11. 19:41
강화학습 Chapter 01) Reinforcement Learning Overview InstructGPT에도 강화학습이 쓰였다니 ! 앞으로 더 발전할 분야인 듯 하다 예전에 강화학습 수업 들은 적 있었는데, 학점 망했던 기억이... ㅋㅋㅋ큐ㅠ 그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~ 목차 Reinforcement Learning이란 ? Reinforcement Learning의 의미 Reinforcement Learning의 특징 4가지 Reinforcement Learning의 구조RewardsEnvironmentsAgentsReinforcement Learning의 Algorithms용어정리 Exploration VS ExploitationPredi..
-
강화학습 프로젝트 참고 자료AI/Reinforcement Learning 2021. 11. 6. 15:58
https://data-newbie.tistory.com/648?category=776421 [RL] 강화학습 알고리즘 baseline 코드 URL github.com/openai/baselines/tree/master/baselines openai/baselines OpenAI Baselines: high-quality implementations of reinforcement learning algorithms - openai/baselines github.com stable-baselines... data-newbie.tistory.com https://www.kaggle.com/osbornep/-reinforcement-learning-from-scratch-in-python Reinforceme..