728x90
Monte-carlo
-
강화학습 Chapter 04) Model-free PredictionAI/Reinforcement Learning 2025. 7. 19. 16:54
강화학습 Chapter 04) Model-free Prediction Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Monte CarlosTemporal Difference→ Model free 방법에는 2가지 존재Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) 1. Monte Carlos Prediction⇒ "(1) episode를 끝까지 가본 후에 받은 reward들로 (2) 각 state의 value function들을 거꾸로 계산하여 Mean Return 받는 것 " [Update value V(S..