-
강화학습 Chapter 07) Deep Reinforcement LearningAI/Reinforcement Learning 2025. 7. 19. 17:25728x90
강화학습 Chapter 07) Deep Reinforcement Learning
Approximation - Deep Q-Networks


- approximation방법 중에서 nonlinear function approximator로 deep neural network가 있다
- action-value function(q-value)를 approximate하는 방법으로 deep neural network를 택한 reinforcement learning방법이 Deep Reinforcement Learning(deepRL)
- 또한 action value function뿐만 아니라 policy 자체를 approximate할 수도 있는데 그 approximator로 DNN을 사용해도 DeepRL!

두 가지 문제점

- q햇은 true q의 현재 approximation을 의미하며, Q-target은 그런 q햇에 수렴해야만 오차 함수를 줄일 수 있다1) Correlations between samples
- 2) Non-stationary targets
- → 하지만 두 가지 문제 때문에 q에 가까워지지 않고 발산한다!
1) Correlations between samples
- 소수의 Sample들 간에 Correlation이 있어서 전체 데이터에 대한 Correlation이 아닌 잘못된 모델을 만들어낸다

2) Non-stationary targets
- q 햇 식에서 차이를 줄이도록 학습되어 있는 w에 의해 State를 주면 Action을 받아낼 수 있는 것
- → 하지만 그 w는 q햇에서만 쓰이는 게 아니라 앞의 max식에서도 공유된다
- prediction Q를 update하니까 target Q도 영향을 받는다 / target이 고정되지 않고 계속 움직인다 / 둘 사이의 차이가 줄어들지 않는다
- ⇒ 두 개를 분리할 필요 있다!

해결 방안 두 가지
⇒ 이 두 문제를 어떻게 해결할 것인가?! 다음의 두 과정을 통해!
1) Experience Replay
2) Fixed Target


1) Experience Replay
- 적은 sample들의 잘못된 correlation을 없애기 위해, agent만의 경험들로부터 dataset을 구축한다
- 처음에는 학습하지 않고 experiences들을 메모리 D에 쌓는다
- 그 메모리 D로부터 random mini-batch를 sampling하여
- 그로부터 optimization 진행


2) Fixed Target

- prediction Q와 target Q 분리 ⇒ 두 개에 동시에 쓰였던 w 파라미터를 분리한다!
- Q target에 있는 w^- 값을 고정시킨다
- 고정된 Q-target 값을 통해 Q-prediction의 파라미터 w를 학습시킨다
- 진동을 피하기 위해서 Q-target에서 사용한 파라미터들 수정

728x90'AI > Reinforcement Learning' 카테고리의 다른 글
[2025 강화학습 Recap] Chapter 2: Markov Decision Processes (0) 2025.08.10 [2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement Learning (0) 2025.08.10 강화학습 Chapter 06) Value Function Approximation (0) 2025.07.19 강화학습 Chapter 05) Model-free Control (0) 2025.07.19 강화학습 Chapter 04) Model-free Prediction (0) 2025.07.19 - approximation방법 중에서 nonlinear function approximator로 deep neural network가 있다