ABOUT ME

-

Today: -

Yesterday: -

Total: -

강화학습 Chapter 07) Deep Reinforcement Learning

AI/Reinforcement Learning 2025. 7. 19. 17:25

728x90

강화학습 Chapter 07) Deep Reinforcement Learning

Approximation - Deep Q-Networks

approximation방법 중에서 nonlinear function approximator로 deep neural network가 있다
- action-value function(q-value)를 approximate하는 방법으로 deep neural network를 택한 reinforcement learning방법이 Deep Reinforcement Learning(deepRL)
- 또한 action value function뿐만 아니라 policy 자체를 approximate할 수도 있는데 그 approximator로 DNN을 사용해도 DeepRL!

두 가지 문제점

q햇은 true q의 현재 approximation을 의미하며, Q-target은 그런 q햇에 수렴해야만 오차 함수를 줄일 수 있다1) Correlations between samples
2) Non-stationary targets
→ 하지만 두 가지 문제 때문에 q에 가까워지지 않고 발산한다!

1) Correlations between samples

소수의 Sample들 간에 Correlation이 있어서 전체 데이터에 대한 Correlation이 아닌 잘못된 모델을 만들어낸다

2) Non-stationary targets

q 햇 식에서 차이를 줄이도록 학습되어 있는 w에 의해 State를 주면 Action을 받아낼 수 있는 것
→ 하지만 그 w는 q햇에서만 쓰이는 게 아니라 앞의 max식에서도 공유된다
prediction Q를 update하니까 target Q도 영향을 받는다 / target이 고정되지 않고 계속 움직인다 / 둘 사이의 차이가 줄어들지 않는다
⇒ 두 개를 분리할 필요 있다!

해결 방안 두 가지

⇒ 이 두 문제를 어떻게 해결할 것인가?! 다음의 두 과정을 통해!

1) Experience Replay

2) Fixed Target

1) Experience Replay

적은 sample들의 잘못된 correlation을 없애기 위해, agent만의 경험들로부터 dataset을 구축한다
처음에는 학습하지 않고 experiences들을 메모리 D에 쌓는다
그 메모리 D로부터 random mini-batch를 sampling하여
그로부터 optimization 진행

2) Fixed Target

prediction Q와 target Q 분리 ⇒ 두 개에 동시에 쓰였던 w 파라미터를 분리한다!
Q target에 있는 w^- 값을 고정시킨다
고정된 Q-target 값을 통해 Q-prediction의 파라미터 w를 학습시킨다
진동을 피하기 위해서 Q-target에서 사용한 파라미터들 수정

728x90

'AI > Reinforcement Learning' 카테고리의 다른 글

[2025 강화학습 Recap] Chapter 2: Markov Decision Processes (0)	2025.08.10
[2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement Learning (0)	2025.08.10
강화학습 Chapter 06) Value Function Approximation (0)	2025.07.19
강화학습 Chapter 05) Model-free Control (0)	2025.07.19
강화학습 Chapter 04) Model-free Prediction (0)	2025.07.19

관련글 관련글 더보기

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바