-
Chapter 01) Reinforcement Learning OverviewAI/Reinforcement Learning 2023. 4. 11. 19:41728x90
Chapter 01) Reinforcement Learning Overview
InstructGPT에도 강화학습이 쓰였다니 !
앞으로 더 발전할 분야인 듯 하다
예전에 강화학습 수업 들은 적 있었는데,
학점 망했던 기억이... ㅋㅋㅋ큐ㅠ
그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~
목차
- Reinforcement Learning이란 ?
- Reinforcement Learning의 의미
- Reinforcement Learning의 특징 4가지
- Reinforcement Learning의 구조
- Rewards
- Environments
- Agents
- Reinforcement Learning의 Algorithms
- 용어정리
- Exploration VS Exploitation
- Prediction VS Control
내용
1. Reinforcement Learning이란?
1) Reinforcement Learning의 의미
2) Reinforcement Learning의 특징 4가지
- 감시자 X, 오직 reward signal만 있다
- Feedback이 지연된다
- Time이 중요하다 (연속적이며, 동일한 분포의 데이터에 대해 독립적이지 않음)
- Agent의 행동이 뒤따라오는 데이터에 영향을 준다
2. Reinforcement Learning의 구조
1) Rewards
- scalar 형태의 feedback signal이다
- step t에서 agent가 얼마나 잘 수행하는지를 나타낸다
※ Sequential Decision Making (Planning, RL)
미래 총 rewards가 최대가 되는 action들을 고르는 것이 목표 Action들의 경우 long term consequences들 가질 수 있다 Reward의 경우 지연될 수 있다
→ 따라서 더 많은 long term reward을 얻기 위해 당장의 reward를 희생하는 것이 나을 수 있다
하지만 Sequential decision making의 두 가지 본질적인 문제가 있다
1) Planning
(1) Env.에 대한 model이 알려져 있다
(2) agent는 model을 활용하여 computation을 진행한다
(3) 외부적인 상호작용(interaction)이 없다
(4) agent는 policy를 향상시킨다
2) Reinforcement Learning
(1) Env.에 대해 초기에 알려져 있지 않다
(2) Env.과 상호작용을 한다
(3) agent는 policy를 향상시킨다2) Environments
※ History와 State
History : observations, actions, rewards의 연속
State : 다음에 무슨 일이 일어날지 결정하는 정보 보통 history의 함수가 state다State의 종류
1. Environment State
- Env. 에 대한 내부적인 표현이 담김
- 보통 agent한테는 보이지 않는다
- 만약에 E.S가 보인다 해도, 별 관련 없는 내용이 담겨 있을 수 있다
2. Agent State
- agent에 대한 내부적인 표현이 담김
- agent가 다음 action을 결정할 때 쓰는 정보
- RL에서 중요하다 볼 수 있다
이때 agent는 Rat agent state가 뭐인지에 따라 ?에 들어갈 물건도 달라진다
3. Markov State
- history로부터 중요한 모든 정보들을 담고 있다
Environment의 종류
1. Fully Observable Environment
- agent가 Env. State에 대해 직접적으로(directly) 관찰할 수 있을 때
- Environment state == Agent state == Markov state
→ Markov Decision Process (MDP)
2. Partially Observable Environment
- agent가 Env. State에 대해 간접적으로(indirectly) 관찰할 수 있을 때
- Environment state != Agent state
→ Partially Observable Markov Decision Process (POMDP)
- agent는 그 자체만의 state 표현을 구축해야 함 ⇒ 그게 바로 Model!
3) Agents
RL Agent의 주 요소 3가지
1. Policy
- agent의 행동 함수
- State에서 action으로 결정하는 function
- action을 결정하는 확률 정도로 생각하면 될 듯
- Deterministic Policy 와 Stochastic Policy 구분!
2. Value Function
- 갹 State가 얼마나 좋은지 / 각 State & action이 얼마나 좋은지
- 미래의 누적된 rewards에 대한 예측값
- = 현재 시점부터 종료 시점까지의 reward들의 합
3. Model
- Env.에 대한 agent의 표현
RL Agent의 종류
- Value Based ( ↔ Policy based )
- Value Function
- No Policy ( implicit Policy = Random)
- Policy Based
- Policy
- No Value Function
- Actor Critic
- Policy
- Value Function
- Model-free
- no Model
- Policy and/or Value Function
- Model-based
- Model
- Policy and/or Value Function
3. Reinforcement Learning의 Algorithms
4. 용어 정리
1) Exploration VS Exploitation
→ 강화학습은 trial-and-error learning이라 할 수 있다. agent는 Env.에서의 경험으로부터, 너무 많은 reward를 잃지 않는 선에서, action을 취해야 한다 . 그런 두 가지 방법으로 Exploration과 Exploitation이 있다.
- Exploration
- Exploration은 환경에 대한 더 많은 정보를 찾는 것이다
- Exploitation
- Exploitation은 내가 이미 알고 있는 정보들 중에서 reward를 최대화하는 방안을 선택하는 것이다
→ 둘 다 못지않게 중요하다!
2) Prediction VS Control
- Prediction
- Prediction은 주어진 policy에 대해서 미래를 evaluate한다
- Control
- Control은 최적의 policy를 찾는다, 즉 미래를 최적화(optimize/improve)한다
728x90'AI > Reinforcement Learning' 카테고리의 다른 글
Chapter 03) Model-based Planning (0) 2023.04.12 Chapter 02) Markov Decision Process (0) 2023.04.12 강화학습 프로젝트 참고 자료 (0) 2021.11.06 - Reinforcement Learning이란 ?