[2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement Learning

AI/Reinforcement Learning 2025. 8. 10. 10:48

728x90

[2025 강화학습 Recap] Chapter 1. Introduction to Reinforcement Learning

1. 강화학습의 기본 개념

인공지능이 체스에서 세계 챔피언을 이기고, 복잡한 비디오 게임을 마스터하며, 자율주행차를 운전하는 모습을 본 적이 있을 것임. 이런 성과들의 공통점은 무엇일까? 바로 시행착오를 통해 스스로 학습한다는 점임.
강화학습은 정답이 주어지지 않은 상황에서 환경과의 상호작용을 통해 최적의 행동을 학습하는 방법임. 지도학습처럼 "이것이 정답이다"라고 알려주는 대신, 오직 "좋다" 또는 "나쁘다"는 보상 신호만으로 학습함. 마치 아기가 걸음마를 배우듯, 넘어지고 일어서기를 반복하면서 점점 더 나은 방법을 찾아가는 과정임.
이 장에서는 강화학습의 기본 개념과 구조를 전반적으로 살펴볼 예정임. 에이전트와 환경이라는 핵심 요소부터 시작해서, 상태, 행동, 보상이라는 기본 구성요소들을 이해하고, 탐험과 활용의 딜레마 같은 강화학습만의 특별한 도전과제들도 다룰 것임.
복잡해 보이지만 핵심 아이디어는 단순함. 좋은 결과를 가져다주는 행동은 더 자주 하고, 나쁜 결과를 가져다주는 행동은 덜 하는 것. 이 간단한 원리가 어떻게 놀라운 지능적 행동으로 발전하는지 함께 알아보자.

1.1 강화학습이란

강화학습은 환경과의 상호작용을 통해 최적의 행동을 학습하는 방법임. 지도학습과 달리 정답 데이터가 없고, 오직 보상(reward) 신호만으로 학습함.

실생활 예시: 아기가 걸음마를 배우는 과정

아기(Agent)가 여러 움직임을 시도해봄
넘어지면 불편함(음수 보상), 잘 걸으면 기쁨(양수 보상)
점차 더 나은 걸음걸이를 학습
누구도 "이렇게 걸어야 한다"고 정답을 알려주지 않음

1.2 강화학습의 4가지 핵심 특징

감독자 없음 - 오직 reward signal만 존재
- 지도학습처럼 "정답"이 주어지지 않음
- 좋고 나쁨만 알 수 있음 (점수로만 피드백)
지연된 피드백 - 행동의 결과가 즉시 나타나지 않음
- 체스에서 초반 수가 승부에 영향을 주지만 바로 알 수 없음
- Credit Assignment Problem: 어떤 행동이 최종 결과에 기여했는지 파악하기 어려움
시간의 중요성 - 연속적이며 독립적이지 않은 데이터
- 이전 행동이 현재 상황에 영향을 줌
- 순서가 바뀌면 완전히 다른 문제가 됨
행동의 영향 - Agent의 행동이 이후 받는 데이터에 영향을 줌
- Active Learning: Agent가 직접 데이터를 생성
- 잘못된 탐험으로 나쁜 상태에 빠질 위험

2. 강화학습의 구조

2.1 핵심 구성요소

Agent (에이전트)

학습하고 결정을 내리는 주체
Environment와 상호작용하며 경험을 쌓음

Environment (환경)

Agent가 행동하는 외부 세계
Agent의 행동에 대해 새로운 상태와 보상을 제공

State (상태)

현재 상황에 대한 정보
다음 행동을 결정하는 데 필요한 정보
핵심: 상태는 미래 예측에 필요한 모든 정보를 담아야 함

Action (행동)

Agent가 취할 수 있는 행위
환경에 영향을 주어 상태 변화를 일으킴
Discrete Action: 체스의 말 이동 (유한한 선택지)
Continuous Action: 로봇 팔의 관절 각도 (무한한 실수값)

Reward (보상)

행동에 대한 피드백 신호 (스칼라 값)
Agent가 얼마나 잘 수행했는지를 나타냄
Reward Hypothesis: 모든 목표는 누적 보상의 최대화로 표현 가능
Reward Shaping: 학습을 돕기 위해 중간 보상을 설계하는 기법

2.2 상태(State)의 종류

Environment State

환경의 내부적 표현
보통 Agent에게는 보이지 않음
보인다 해도 불필요한 정보가 포함될 수 있음

Agent State

Agent의 내부적 표현
다음 행동을 결정할 때 사용하는 정보
강화학습에서 가장 중요한 상태

Markov State

미래 예측에 필요한 모든 정보를 포함
과거 히스토리가 아닌 현재 상태만으로 미래를 예측 가능
Markov Property: P(St+1|St) = P(St+1|S1,...,St)
직관적 이해: "현재가 과거와 미래를 분리한다"
예시: 체스에서 현재 말의 배치만 알면 충분 (이전 수순은 중요하지 않음)

2.3 환경의 종류

Fully Observable Environment (완전 관측 환경)

Agent가 Environment State를 직접 관찰 가능
Environment State = Agent State = Markov State
**Markov Decision Process (MDP)**로 모델링
예시: 체스, 바둑 같은 완전정보게임

Partially Observable Environment (부분 관측 환경)

Agent가 Environment State를 간접적으로만 관찰 가능
Environment State ≠ Agent State
**Partially Observable MDP (POMDP)**로 모델링
예시: 포커 (상대방 카드를 모름), 자율주행 (모든 센서 정보가 제한적)
해결 방법:
- 과거 관측들을 기억 (RNN 사용)
- 확률적 추정 (Belief State)
- Attention 메커니즘

3. Agent의 구성요소

3.1 Policy (정책)

상태에서 행동으로의 매핑 함수
Agent의 행동 전략을 정의
Deterministic Policy: 각 상태에서 하나의 행동만 선택
- π(s) = a (상태 s에서 항상 행동 a)
- 예시: 틱택토에서 "가운데가 비어있으면 항상 가운데 선택"
Stochastic Policy: 각 상태에서 행동을 확률적으로 선택
- π(a|s) = P(행동=a|상태=s)
- 예시: "상황에 따라 60% 공격, 40% 수비"
왜 확률적 정책이 필요한가: 상대방이 예측하기 어렵게 만들기 위해

3.2 Value Function (가치 함수)

각 상태 또는 상태-행동 쌍의 가치를 평가
현재부터 종료까지의 예상 누적 보상
정책의 좋고 나쁨을 판단하는 기준

두 가지 주요 타입:

State Value Function V(s): 상태 s에서 시작해서 정책 π를 따를 때의 기댓값
Action Value Function Q(s,a): 상태 s에서 행동 a를 취한 후 정책 π를 따를 때의 기댓값

직관적 이해:

V(s)는 "이 위치가 얼마나 좋은가"
Q(s,a)는 "이 위치에서 이 행동이 얼마나 좋은가"
부동산으로 비유하면 V(s)는 동네 가치, Q(s,a)는 특정 집의 가치

3.3 Model (모델)

환경에 대한 Agent의 표현
다음 상태와 보상을 예측
계획(Planning)에 사용됨

4. Agent의 분류

4.1 가치 기반 vs 정책 기반

Value-based: 가치 함수 학습, 암시적 정책 사용
Policy-based: 정책 직접 학습, 가치 함수 없음
Actor-Critic: 정책과 가치 함수 모두 학습

4.2 모델 기반 vs 모델 프리

Model-based: 환경 모델을 명시적으로 학습
Model-free: 환경 모델 없이 경험으로만 학습

5. 핵심 개념들

5.1 Exploration vs Exploitation

강화학습의 핵심 딜레마

Exploration (탐험)

환경에 대한 새로운 정보 수집
더 좋은 행동을 발견할 가능성
단기적으로는 손해를 볼 수 있음
예시: 새로운 식당을 가보기 (맛없을 수도 있지만 더 맛있는 곳을 발견할 수도)

Exploitation (활용)

현재 알고 있는 정보로 최선의 선택
단기적 보상 최대화
더 좋은 선택을 놓칠 위험
예시: 항상 같은 맛집만 가기 (안전하지만 더 좋은 곳을 놓칠 수 있음)

균형점 찾기가 중요함

해결 방법들:

ε-greedy: ε 확률로 랜덤 행동, (1-ε) 확률로 최선 행동
Upper Confidence Bound (UCB): 불확실성까지 고려한 선택
Thompson Sampling: 베이지안 방법론 활용

5.2 Prediction vs Control

Prediction (예측)

주어진 정책에 대해 가치 함수 계산
"이 정책을 따르면 얼마나 좋을까?"
Policy Evaluation 과정

Control (제어)

최적 정책을 찾는 과정
"어떤 정책이 가장 좋을까?"
Policy Improvement 과정

6. Sequential Decision Making

6.1 특징

미래의 총 보상을 최대화하는 행동 선택
행동들이 장기적 결과를 가질 수 있음
즉시 보상을 희생하여 장기 보상을 얻을 수 있음

핵심 개념들:

Discount Factor (γ): 미래 보상을 현재 가치로 할인
- γ = 0: 근시안적 (즉시 보상만 고려)
- γ = 1: 원시안적 (모든 미래 보상 동등하게 고려)
- 보통 0.9-0.99 사용
Return: 할인된 미래 보상들의 합
Episodic vs Continuing: 종료가 있는 작업 vs 무한히 계속되는 작업

6.2 Planning vs Reinforcement Learning

Planning

환경 모델이 알려져 있음
모델을 이용한 계산
외부 상호작용 없음

Reinforcement Learning

환경 모델이 알려져 있지 않음
환경과의 상호작용 필요
경험을 통한 학습

7. 주요 알고리즘 분류

7.1 Model-free 알고리즘

Value-based: Q-Learning, SARSA, DQN
- Q-Learning: Off-policy, 최적 정책 직접 학습
- SARSA: On-policy, 현재 정책을 따라 학습
- DQN: 딥러닝 + Q-Learning (Atari 게임에서 유명)
Policy-based: Policy Gradient, REINFORCE
- 정책을 직접 최적화
- 연속 행동 공간에 유리
- 안정적이지만 학습이 느림
Actor-Critic: A3C, PPO, SAC
- Policy-based + Value-based의 장점 결합
- Actor: 정책 학습, Critic: 가치 함수 학습
- 현재 가장 인기 있는 방법들

7.2 Model-based 알고리즘

Dynamic Programming: Value Iteration, Policy Iteration
- 환경 모델이 완전히 알려져 있을 때 사용
- 이론적으로 완벽하지만 실제로는 제한적
Monte Carlo Tree Search
- 알파고에서 사용된 기법
- 트리 탐색 + 몬테카를로 시뮬레이션
Model-based RL: Dyna-Q, PILCO
- 환경 모델을 학습하면서 동시에 정책 학습
- Sample efficiency가 높지만 모델 오차 문제

8. 실제 구현시 고려사항

8.1 주요 도전과제

Sample Efficiency: 적은 데이터로 효과적 학습
Generalization: 학습하지 않은 상황에서도 동작
Stability: 학습 과정에서 성능이 요동치지 않게
Safety: 학습 중 위험한 행동 방지

8.2 하이퍼파라미터 튜닝

Learning Rate: 너무 크면 불안정, 너무 작으면 느림
Batch Size: 클수록 안정적이지만 메모리 많이 사용
Network Architecture: 문제에 따라 적절한 구조 선택
Reward Engineering: 좋은 보상 함수 설계가 성공의 열쇠

강화학습은 이론적으로는 간단하지만 실제 구현과 적용에서는 많은 고려사항들이 있음. 특히 exploration-exploitation 균형과 sample efficiency가 주요 도전과제임.