Chapter 01) Reinforcement Learning Overview

AI/Reinforcement Learning 2023. 4. 11. 19:41

728x90

Chapter 01) Reinforcement Learning Overview

InstructGPT에도 강화학습이 쓰였다니 !

앞으로 더 발전할 분야인 듯 하다

예전에 강화학습 수업 들은 적 있었는데,

학점 망했던 기억이... ㅋㅋㅋ큐ㅠ

그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~

목차

Reinforcement Learning이란 ?
1. Reinforcement Learning의 의미
2. Reinforcement Learning의 특징 4가지
Reinforcement Learning의 구조
1. Rewards
2. Environments
3. Agents
Reinforcement Learning의 Algorithms
용어정리
1. Exploration VS Exploitation
2. Prediction VS Control

내용

1. Reinforcement Learning이란?

1) Reinforcement Learning의 의미

2) Reinforcement Learning의 특징 4가지

감시자 X, 오직 reward signal만 있다
Feedback이 지연된다
Time이 중요하다 (연속적이며, 동일한 분포의 데이터에 대해 독립적이지 않음)
Agent의 행동이 뒤따라오는 데이터에 영향을 준다

2. Reinforcement Learning의 구조

1) Rewards

scalar 형태의 feedback signal이다
step t에서 agent가 얼마나 잘 수행하는지를 나타낸다

※ Sequential Decision Making (Planning, RL)

미래 총 rewards가 최대가 되는 action들을 고르는 것이 목표 Action들의 경우 long term consequences들 가질 수 있다 Reward의 경우 지연될 수 있다

→ 따라서 더 많은 long term reward을 얻기 위해 당장의 reward를 희생하는 것이 나을 수 있다

하지만 Sequential decision making의 두 가지 본질적인 문제가 있다

1) Planning
(1) Env.에 대한 model이 알려져 있다
(2) agent는 model을 활용하여 computation을 진행한다
(3) 외부적인 상호작용(interaction)이 없다
(4) agent는 policy를 향상시킨다

2) Reinforcement Learning
(1) Env.에 대해 초기에 알려져 있지 않다
(2) Env.과 상호작용을 한다
(3) agent는 policy를 향상시킨다

2) Environments

※ History와 State

History : observations, actions, rewards의 연속
State : 다음에 무슨 일이 일어날지 결정하는 정보 보통 history의 함수가 state다

State의 종류

1. Environment State

Env. 에 대한 내부적인 표현이 담김
보통 agent한테는 보이지 않는다
만약에 E.S가 보인다 해도, 별 관련 없는 내용이 담겨 있을 수 있다

2. Agent State

agent에 대한 내부적인 표현이 담김
agent가 다음 action을 결정할 때 쓰는 정보
RL에서 중요하다 볼 수 있다

이때 agent는 Rat agent state가 뭐인지에 따라 ?에 들어갈 물건도 달라진다

3. Markov State

history로부터 중요한 모든 정보들을 담고 있다

Environment의 종류

1. Fully Observable Environment

agent가 Env. State에 대해 직접적으로(directly) 관찰할 수 있을 때
Environment state == Agent state == Markov state

→ Markov Decision Process (MDP)

2. Partially Observable Environment

agent가 Env. State에 대해 간접적으로(indirectly) 관찰할 수 있을 때
Environment state != Agent state

→ Partially Observable Markov Decision Process (POMDP)

agent는 그 자체만의 state 표현을 구축해야 함 ⇒ 그게 바로 Model!

3) Agents

RL Agent의 주 요소 3가지

1. Policy

agent의 행동 함수
State에서 action으로 결정하는 function
action을 결정하는 확률 정도로 생각하면 될 듯
Deterministic Policy 와 Stochastic Policy 구분!

2. Value Function

갹 State가 얼마나 좋은지 / 각 State & action이 얼마나 좋은지
미래의 누적된 rewards에 대한 예측값
= 현재 시점부터 종료 시점까지의 reward들의 합

3. Model

Env.에 대한 agent의 표현

RL Agent의 종류

Value Based ( ↔ Policy based )
- Value Function
- No Policy ( implicit Policy = Random)
Policy Based
- Policy
- No Value Function
Actor Critic
- Policy
- Value Function
Model-free
- no Model
- Policy and/or Value Function
Model-based
- Model
- Policy and/or Value Function

3. Reinforcement Learning의 Algorithms

4. 용어 정리

1) Exploration VS Exploitation

→ 강화학습은 trial-and-error learning이라 할 수 있다. agent는 Env.에서의 경험으로부터, 너무 많은 reward를 잃지 않는 선에서, action을 취해야 한다 . 그런 두 가지 방법으로 Exploration과 Exploitation이 있다.

Exploration

Exploration은 환경에 대한 더 많은 정보를 찾는 것이다

Exploitation

Exploitation은 내가 이미 알고 있는 정보들 중에서 reward를 최대화하는 방안을 선택하는 것이다

→ 둘 다 못지않게 중요하다!

2) Prediction VS Control

Prediction
- Prediction은 주어진 policy에 대해서 미래를 evaluate한다
Control
- Control은 최적의 policy를 찾는다, 즉 미래를 최적화(optimize/improve)한다

728x90

'AI > Reinforcement Learning' 카테고리의 다른 글

Chapter 03) Model-based Planning (0)	2023.04.12
Chapter 02) Markov Decision Process (0)	2023.04.12
강화학습 프로젝트 참고 자료 (0)	2021.11.06

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로