Chapter 02) Markov Decision Process

AI/Reinforcement Learning 2023. 4. 12. 22:49

728x90

Chapter 02) Markov Decision Process

목차

Markov Property <S>
- State Transition Matrix
Markov Process(=Chain) <S, P>
Markov Reward Process <S, P, R, r>
1. (Discounted) Return
2. Value Function - State Value Function
3. Bellman Equation for MRPs
Markov Decision Process <S, A, P, R, r, >
1. Bellman Expectation Equation <V.F>
  1. Policies
  2. Value Function
2. Bellman Optimality Equation <Optimal V.F>
  1. Optimal Policies
  2. Optimal Value Function

내용

1. Markov Property <S>

⇒ " 어떤 상태 S는 Markov 상태이다 "

첫 상태로부터 현 상태에 올 확률 == 직전 상태로부터 현 상태에 올 확률

→ 현 state는 그 이전, 즉 history로부터 모든 관련 있는 정보를 담고 있다!

State Transition Matrix

현재 상태 s가 given일 때, 다음 상태 s'로 갈 확률을 담은 행렬
각 확률P_ss'가 합쳐진 행렬 P는 각 row의 합이 1이 된다

2. Markov Process(=Chain) <S, P>

⇒ "Markov Process는 <S, P>이며, S는 상태들의 집합, P는 상태 변이 확률 행렬이다"

Markov Process는 Memoryless random process.
단, 이 때의 Random은 어떤 확률(Markvov 속성)에 기반한 Random이란 뜻!

3. Markov Reward Process <S, P, R, r>

⇒ "Markov reward process는 values(가치)와 discount 값이 포함된 Markov Chain이다!"

(Discounted) Return

→ 늦은 보상에 대해 할인율 적용하여 계산한다! 그 이유 ?

반복되는 Markov Process 내에서 무한한 return을 막고 어느 정도 수렴시키기 위해
미래에 대한 **불확실성(Uncertainty)**를 적용하기 위해서
특정 경우, 먼 미래의 보상보다는 가까운 미래의 보상에 더 관심 있기 때문에

할인율 r 값이 클수록 먼 미래의 reward을 크게 반영하므로 원시안적이며, 할인율 r 값이 작을 수록 먼 미래의 reward의 가치를 낮게 평가하므로 근시안적이다
→ 할인율 r=1이라면, 해당 process가 모두 끝날 것이라는 것 가정해야 함

Value Function - State Value Function

⇒ "현재 상태 S로부터 끝날 때까지의 보상의 기댓값"

Bellman Equation for MRPs

⇒ "Bellman equation은 다음 state와 현재 state의 value function 사이의 관계를 식으로 나타낸 것!"

⇒ "MRP을 풀기 위한 방법으로 Bellman Equation 적용!"

아래의 노드들은 각각 다음 단계의 가능한 state를 의미하고 V(s)는 그 state의 value를 의미한다⇒ 계산하면 다음과 같이 !
- → 다음 단계의 모든 state들의 value들을 기댓값으로 표현(갈 확률 곱하여)하여 discount factor를 곱한다

4. Markov Decision Process <S, A, P, R, r, >

⇒ "Markov Decision Process는 decisions(actions)가 포함된 Markov Reward Process"

MDP는 fully observable한 Env.에서 적용되지만, Partially Observable하거나 Optimal Control한 경우에도 적용할 수 있다!
MDP의 다음 state와 현재 state의 value Function들 간의 사이를 Bellman Expectation과 Bellman Optimality Equation으로 표현할 수 있다!

1) Bellman Expectation Equation <V.F>

⇒ "Policies + Value Function"

⇒ " 현재 state와 다음 state의 Value Function 사이의 관계를 나타내주기 위한 식 "

(1) Policies

정책은 agent의 행동을 결정한다
MDP 정책은 history가 아니라 현재 state에 의존한다

→ Policy는 시간 독립적이다 (= time independent, stationary )

(2) Value Function

state value function은 현재 상태 s가 주어졌을 때, 기대되는 보상값(expected return)들의 기댓값이다
action value function은 현재 상태 s와 행동 a가 주어졌을 때, 기대되는 보상값(expected return)들의 기댓값이다

⇒ value function은 또다시 G(t)를 즉각적인 보상과 할인된 다음 상태의 가치로 나누어 재귀적으로 표현할 수 있다

1. State Value Function V(x)

아래의 노드들은 현재 상태 s에서 선택할 수 있는 action들을 의미한다
- → 그 Q(x)에 Policy까지 고려하면 현재 state에 대한 value, 즉 V(x)를 구할 수 있다
- → 현재 State에 대해 각 action에 대해 고르니 Q(x)로 value를 도출할 수 있다

Q(x)를 치환해서 V(x)만으로 표현할 수 있다

2. Action Value Function Q(x)

아래의 노드들은 각각 한 action a를 취했을 때 나올 수 있는 다음 단계의 state들을 의미한다
- → 같은 action을 해도 어떤 환경에 의해 다른 state로 갈 수 있기 때문에 이를 고려하기 위해 상태 변이 확률 행렬을 곱한다

위의 V(x)를 다시 Q(x)으로 표현된 식으로 치환한다

2) Bellman Optimality Equation <Optimal V.F>

⇒ "Optimal Policies + Optimal Value Function"

⇒ " 현재 state와 다음 state의 Optimal Value Function 사이의 관계를 나타내주기 위한 식 "

(1) Optimal Policies

(2) Optimal Value Function

optimal state-value function이란 현재 state에서 policy에 따라서 앞으로 받을 reward들이 달라질 때, 그 중에서 앞으로 가장 많은 reward를 받을 policy를 따랐을 때의 value function이다

1. State Value Function V(x)

2. Action Value Function Q(x)

728x90

'AI > Reinforcement Learning' 카테고리의 다른 글

Chapter 03) Model-based Planning (0)	2023.04.12
Chapter 01) Reinforcement Learning Overview (1)	2023.04.11
강화학습 프로젝트 참고 자료 (0)	2021.11.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로