ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 강화학습 Chapter 07) Deep Reinforcement Learning
    AI/Reinforcement Learning 2025. 7. 19. 17:25
    728x90

     

    강화학습 Chapter 07) Deep Reinforcement Learning

     

    Approximation - Deep Q-Networks

     

    • approximation방법 중에서 nonlinear function approximator로 deep neural network가 있다
      • action-value function(q-value)를 approximate하는 방법으로 deep neural network를 택한 reinforcement learning방법이 Deep Reinforcement Learning(deepRL)
      • 또한 action value function뿐만 아니라 policy 자체를 approximate할 수도 있는데 그 approximator로 DNN을 사용해도 DeepRL!

     

     

    두 가지 문제점

     

    • q햇은 true q의 현재 approximation을 의미하며, Q-target은 그런 q햇에 수렴해야만 오차 함수를 줄일 수 있다1) Correlations between samples
    • 2) Non-stationary targets
    • → 하지만 두 가지 문제 때문에 q에 가까워지지 않고 발산한다!

    1) Correlations between samples

    • 소수의 Sample들 간에 Correlation이 있어서 전체 데이터에 대한 Correlation이 아닌 잘못된 모델을 만들어낸다

     

    2) Non-stationary targets

    • q 햇 식에서 차이를 줄이도록 학습되어 있는 w에 의해 State를 주면 Action을 받아낼 수 있는 것
    • → 하지만 그 w는 q햇에서만 쓰이는 게 아니라 앞의 max식에서도 공유된다
    • prediction Q를 update하니까 target Q도 영향을 받는다 / target이 고정되지 않고 계속 움직인다 / 둘 사이의 차이가 줄어들지 않는다
    • ⇒ 두 개를 분리할 필요 있다!

     

    해결 방안 두 가지

    ⇒ 이 두 문제를 어떻게 해결할 것인가?! 다음의 두 과정을 통해!

    1) Experience Replay

    2) Fixed Target

     

     

    1) Experience Replay

    • 적은 sample들의 잘못된 correlation을 없애기 위해, agent만의 경험들로부터 dataset을 구축한다
    • 처음에는 학습하지 않고 experiences들을 메모리 D에 쌓는다
    • 그 메모리 D로부터 random mini-batch를 sampling하여
    • 그로부터 optimization 진행

     

     

     

    2) Fixed Target

     

    • prediction Q와 target Q 분리 ⇒ 두 개에 동시에 쓰였던 w 파라미터를 분리한다!
    • Q target에 있는 w^- 값을 고정시킨다
    • 고정된 Q-target 값을 통해 Q-prediction의 파라미터 w를 학습시킨다
    • 진동을 피하기 위해서 Q-target에서 사용한 파라미터들 수정

     

     

     

     

    728x90
Designed by Tistory.