홈
태그
방명록

분류 전체보기 (257)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

off policy

강화학습 Chapter 05) Model-free Control
AI/Reinforcement Learning 2025. 7. 19. 16:55

강화학습 Chapter 05) Model-free Control Model-Free: 환경에 대한 model를 모르기 때문에, agent는 외부적인 상호작용을 통해 그 model에 대해 계산한다Control: 그 현재의 Value Function을 토대로 더 나은 policy를 구하고 이와 같은 과정을 반복하여 optimal policy를 구하는 것 ( = improvement)Recap - Prediction :현재 optimal하지 않는 어떤 policy에 대해서 sampling을 통해 value function을 구하기 ( = evaluation) MDP model을 몰라도 experience는 sampled될 수 있으며, MDP Model을 알아도 sampling이 없으면 방대한 양을 다 계산해야..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바