728x90
value function approximation
-
강화학습 Chapter 06) Value Function ApproximationAI/Reinforcement Learning 2025. 7. 19. 17:16
강화학습 Chapter 06) Value Function Approximation 이 부분이 현재 LLM에서의 Reinforcememt Learning과 가장 밀접한 부분인 듯 1. Tabular Methods이전까지 배운 것 → action value function을 table로 만들어 푼다→ state나 action이 작은 경우엔 가능 (grid world처럼!)⇒ 그러나 만약에 이 table이 더 커진다면, 즉 현실처럼 state가 무한대로 많은 경우라면, 저장하는 것도 문제고 개별적으로 학습하는 것도 문제 됨 generalization 필요함! 2. Approximation - Linear function⇒ "table로 작성하지 않고 w라는 새로운 변수를 사용하여 value function..