[2025 강화학습 Recap] Chapter 6. Value Function Approximation

AI/Reinforcement Learning 2025. 8. 10. 10:52

728x90

[2025 강화학습 Recap] Chapter 6. Value Function Approximation

지금까지의 여정을 돌아보면, 우리는 강화학습의 완벽한 이론적 토대를 구축했음. MDP로 문제를 정의하고, Dynamic Programming으로 이상적 해법을 찾고, Model-free 방법으로 현실적 학습을 구현했음. 하지만 모든 것이 하나의 큰 가정 위에 세워져 있었음. 바로 상태와 행동의 개수가 충분히 작아서 테이블로 관리할 수 있다는 것.

현실은 그렇지 않음. 자율주행차가 마주하는 상황의 수는? 바둑판의 가능한 배치는? 로봇이 취할 수 있는 연속적인 행동은? 이런 문제들 앞에서 테이블 기반 방법은 무력해짐. 메모리도 부족하고, 학습 시간도 천문학적으로 늘어남.

하지만 인간은 어떻게 복잡한 상황을 처리할까? 우리는 모든 경우를 외우지 않고 패턴을 인식하고 일반화함. "비슷한 상황에서는 비슷한 가치를 가질 것"이라고 추론함. 이것이 바로 함수 근사(Function Approximation)의 핵심 아이디어임.

이 장에서는 가치함수를 테이블이 아닌 매개변수화된 함수로 표현하는 방법을 다룸. 선형 함수부터 시작해서 신경망까지, 어떻게 무한한 상태 공간을 유한한 매개변수로 압축할 수 있는지 알아볼 예정임. 하지만 이 과정에서 새로운 도전들이 등장함. 수렴성은 보장될까? 안정성은? 어떤 특성을 근사해야 할까?

지금까지 배운 모든 알고리즘들이 함수 근사와 만나면서 진짜 실용적인 도구로 거듭나는 순간을 함께 경험해보자.

1. Chapter 5에서 Chapter 6으로: Tabular에서 실제 세계로

1.1 지금까지 달성한 것

Tabular Methods의 성공: ✅ Model-Free Prediction: MC, TD로 가치 추정 ✅ Model-Free Control: SARSA, Q-Learning으로 최적 정책 학습 ✅ 이론적 완성도: 작은 문제에서는 완벽한 해법

1.2 현실의 벽: Curse of Dimensionality

Tabular Methods의 전제 조건:

상태와 행동을 테이블로 저장 가능
각 상태-행동 쌍을 개별적으로 학습
유한하고 작은 상태/행동 공간

현실 세계의 문제들:

바둑: 상태 수 ≈ 10^170 (우주 원자 수보다 많음)
로봇 제어: 관절 각도, 속도 등 연속 변수들
자율주행: 센서 데이터, 위치, 속도 등 고차원 상태
게임 AI: 픽셀 단위 화면 정보 (Atari: 210×160×3)

1.3 Tabular Methods의 한계

메모리 문제

상태 수: 10^6개
행동 수: 10개
→ Q-table 크기: 10^7개 엔트리
→ 메모리: 수십 MB (아직 괜찮음)

상태 수: 10^10개 (현실적)
→ Q-table 크기: 10^11개 엔트리  
→ 메모리: 수 TB (불가능!)

학습 시간 문제

각 상태-행동 쌍을 개별 학습
방문하지 않은 상태는 영원히 학습 안 됨
비슷한 상태들 간 지식 공유 불가

일반화 능력 부재

새로운 상태에서 완전히 무력함
유사한 상태에서의 경험을 활용하지 못함

1.4 해결책: Function Approximation

핵심 아이디어: "테이블 대신 함수로 가치를 표현하자!"

Before (Tabular):

V(s1) = 3.2
V(s2) = 2.8  
V(s3) = 4.1
...
V(s백만) = ?

After (Function Approximation):

V(s) ≈ V̂(s, w) = w₁×특징₁(s) + w₂×특징₂(s) + ...
하나의 함수로 모든 상태의 가치 표현

2. Function Approximation의 기본 개념

2.1 핵심 아이디어

매개변수화된 함수:

V̂(s, w) ≈ V(s)
Q̂(s, a, w) ≈ Q(s, a)

핵심 구성요소:

특징 벡터: φ(s) (상태의 특징 표현)
매개변수: w (학습 가능한 가중치)
함수 형태: 선형, 신경망 등

2.2 특징 표현 (Feature Representation)

상태를 벡터로 변환:

상태 s → 특징벡터 φ(s) = [φ₁(s), φ₂(s), ..., φₙ(s)]ᵀ

예시: GridWorld:

위치 (3,4) → φ(s) = [3, 4, 거리_목표, 벽_근처, ...]ᵀ

예시: 자율주행:

센서 데이터 → φ(s) = [속도, 앞차_거리, 차선_위치, ...]ᵀ

2.3 Function Approximation의 장점

1. 메모리 효율성:

상태 10^10개 → 매개변수 10^3개
테이블: 10^10 메모리 → 함수: 10^3 메모리

2. 일반화 능력:

비슷한 상태들이 비슷한 가치를 가짐
새로운 상태에서도 합리적인 추정 가능

3. 온라인 학습:

매개변수만 업데이트하면 됨
실시간 학습 가능

3. 선형 함수 근사 (Linear Function Approximation)

3.1 선형 함수의 형태

State Value Function:

V̂(s, w) = φ(s)ᵀw = Σᵢ φᵢ(s)wᵢ

Action Value Function:

Q̂(s, a, w) = φ(s, a)ᵀw = Σᵢ φᵢ(s, a)wᵢ

특징:

매개변수 w에 대해 선형
특징 φ(s)에 대해서는 비선형 가능
간단하고 이론적 성질이 좋음

3.2 선형 함수 근사의 예시

다항식 기저 (Polynomial Basis)

상태 s = [x, y] (2차원 위치)
φ(s) = [1, x, y, x², y², xy]ᵀ
V̂(s, w) = w₀ + w₁x + w₂y + w₃x² + w₄y² + w₅xy

RBF (Radial Basis Functions)

φᵢ(s) = exp(-||s - cᵢ||²/2σ²)  (가우시안 기저)
V̂(s, w) = Σᵢ wᵢ φᵢ(s)

타일 코딩 (Tile Coding)

상태 공간을 여러 타일로 분할
각 타일 내에서는 상수 값
φᵢ(s) = 1 if s가 타일 i 안에 있음, 0 otherwise

3.3 선형 함수의 장점과 한계

장점: ✅ 계산 효율적 ✅ 수렴 보장 (조건 하에) ✅ 이론적 분석 용이 ✅ 해석 가능

한계: ❌ 표현력 제한 (복잡한 함수 근사 어려움) ❌ 특징 설계에 크게 의존 ❌ 비선형 패턴 포착 한계

4. 매개변수 학습: Gradient Descent

4.1 목적 함수 정의

이상적인 목적 함수 (지도 학습에서):

J(w) = E[(V(s) - V̂(s, w))²]
       ↑ 참값 (하지만 모름!)

강화학습에서의 문제: 참값 V(s)를 모름!

4.2 Gradient Descent의 기본 원리

목적: J(w)를 최소화하는 w 찾기

업데이트 규칙:

w ← w - α ∇J(w)

선형 함수에서:

∇w V̂(s, w) = φ(s)

4.3 Stochastic vs Batch Gradient Descent

Stochastic Gradient Descent (SGD)

w ← w - α ∇w [목적함수의 샘플 추정]

장점: 온라인 학습, 빠른 업데이트 단점: 노이지한 업데이트

Batch Gradient Descent

w ← w - α (1/n) Σᵢ ∇w [각 샘플의 목적함수]

장점: 안정적 업데이트 단점: 메모리 요구량 크고 느림

강화학습에서는 SGD 주로 사용 (온라인 특성상)

5. Value Function Approximation

5.1 문제 정의

목표: 정책 π에 대해 V^π(s) ≈ V̂(s, w) 학습

핵심 도전: 참값 V^π(s) 모름 → Target 필요!

5.2 Target 선택에 따른 방법들

Monte Carlo Function Approximation

Target: 실제 Return Gt

목적함수: J(w) = E[(Gt - V̂(s, w))²]
업데이트: w ← w + α[Gt - V̂(St, w)]φ(St)

특징:

Unbiased target (Gt는 실제 값)
High variance
에피소드 완료 후 업데이트

TD Function Approximation

Target: TD Target (R_{t+1} + γV̂(S_{t+1}, w))

목적함수: J(w) = E[(R_{t+1} + γV̂(S_{t+1}, w) - V̂(St, w))²]
업데이트: w ← w + α[R_{t+1} + γV̂(S_{t+1}, w) - V̂(St, w)]φ(St)

특징:

Biased target (추정값 사용)
Low variance
매 스텝 업데이트 가능

5.3 수렴성 분석

Linear Function Approximation

Monte Carlo: 항상 global optimum으로 수렴 TD(0): local optimum으로 수렴 (하지만 좋은 해)

Non-linear Function Approximation

문제점: 수렴 보장 없음, 발산 가능 해결책: 경험 재생, 타겟 네트워크 등

6. Action Value Function Approximation

6.1 왜 Action Value Function인가?

Control 문제를 위해서:

정책 개선: π'(s) = argmax_a Q̂(s, a, w)

Model-Free 특성: 환경 모델 없이도 정책 개선 가능

6.2 Action Value의 특징 표현

방법 1: State-Action 특징

φ(s, a) = [φ₁(s,a), φ₂(s,a), ..., φₙ(s,a)]ᵀ
Q̂(s, a, w) = φ(s, a)ᵀw

방법 2: 행동별 분리 특징

φ(s) = [φ₁(s), φ₂(s), ..., φₙ(s)]ᵀ
Q̂(s, a, w) = φ(s)ᵀwa  (행동 a마다 다른 가중치)

6.3 Control 알고리즘들의 Function Approximation

Monte Carlo Control with Function Approximation

목적함수: J(w) = E[(Gt - Q̂(s, a, w))²]
업데이트: w ← w + α[Gt - Q̂(St, At, w)]∇w Q̂(St, At, w)

SARSA with Function Approximation

Target: R_{t+1} + γQ̂(S_{t+1}, A_{t+1}, w)
업데이트: w ← w + α[R_{t+1} + γQ̂(S_{t+1}, A_{t+1}, w) - Q̂(St, At, w)]∇w Q̂(St, At, w)

Q-Learning with Function Approximation

Target: R_{t+1} + γ max_a Q̂(S_{t+1}, a, w)
업데이트: w ← w + α[R_{t+1} + γ max_a Q̂(S_{t+1}, a, w) - Q̂(St, At, w)]∇w Q̂(St, At, w)

6.4 각 방법의 특성 비교

방법TargetBiasVariance수렴성MCGt없음높음보장SARSAR+γQ̂(s',a')있음낮음조건부Q-LearningR+γmax Q̂(s',a)있음낮음어려움

7. 실제 구현 고려사항

7.1 특징 설계 (Feature Engineering)

좋은 특징의 조건:

관련성: 가치와 밀접한 관련
차별성: 다른 상태들을 구분 가능
일반화: 유사한 상태들에 일관된 표현
효율성: 계산 비용 고려

특징 설계 방법들:

도메인 지식 활용: 전문가가 직접 설계
자동 특징 추출: 원시 데이터에서 자동 생성
표현 학습: 특징과 가치를 동시에 학습

7.2 학습률 설정

적응적 학습률:

α_t = α_0 / (1 + t)  또는  α_t = α_0 / √t

조건:

Σ α_t = ∞ (충분한 학습)
Σ α_t² < ∞ (수렴 보장)

7.3 안정성 개선 기법

Experience Replay

과거 경험을 버퍼에 저장
랜덤 샘플링으로 배치 학습
데이터 효율성과 안정성 개선

Target Network

별도의 타겟 네트워크 유지
주기적으로 메인 네트워크 복사
Q-Learning의 발산 문제 완화

8. 함수 근사의 한계와 도전

8.1 근사 오차 (Approximation Error)

불가피한 오차: 유한한 매개변수로 복잡한 함수 근사의 한계

Deadly Triad:

Function Approximation: 근사 오차
Bootstrapping: 추정값으로 추정값 업데이트
Off-policy: 행동 정책과 학습 정책 불일치

→ 이 세 요소가 결합되면 발산 위험 급증

8.2 차원의 저주 (Curse of Dimensionality)

문제: 특징 차원이 증가하면 필요한 데이터 기하급수적 증가

해결 방향:

차원 축소: PCA, autoencoder 등
정규화: L1, L2 regularization
특징 선택: 중요한 특징만 선별

8.3 탐험과 함수 근사

문제: 함수 근사 시 탐험 전략 복잡해짐

UCB의 확장: 불확실성 추정이 어려움 해결책:

Bayesian 접근법
Ensemble 방법
Dropout을 이용한 불확실성 추정

9. Chapter 6 정리 및 다음 단계

9.1 Function Approximation이 해결한 것

✅ 확장성: 큰 상태 공간 처리 가능 ✅ 일반화: 새로운 상태에서도 합리적 성능 ✅ 메모리 효율: 고정된 크기의 매개변수 ✅ 실용성: 현실 문제에 적용 가능

9.2 선형 함수 근사의 성과와 한계

성과:

이론적 보장 (수렴성)
계산 효율성
해석 가능성

한계:

표현력 제한
특징 설계에 의존
복잡한 패턴 학습 어려움

9.3 남은 도전과제

❌ 표현력: 더 복잡한 함수 근사 필요 ❌ 특징 학습: 자동 특징 추출 ❌ 안정성: 비선형 함수 근사의 수렴 보장 ❌ 샘플 효율성: 더 적은 데이터로 학습

9.4 다음 단계: Deep Reinforcement Learning

해결하고 싶은 문제들:

"더 복잡한 함수는?" → 신경망 (Deep RL)
"특징을 자동으로 학습하려면?" → End-to-end 학습
"이미지/텍스트 처리는?" → CNN, RNN 등

핵심 연결점:

Function Approximation → Neural Network
Q-Learning + Function Approximation → DQN
Policy Gradient + Function Approximation → Actor-Critic

9.5 현대 AI와의 연결고리

이 Chapter가 특히 중요한 이유:

LLM의 RLHF: 함수 근사로 가치/정책 학습
ChatGPT: Q-function을 신경망으로 근사
AlphaGo: 가치 네트워크와 정책 네트워크

9.6 핵심 메시지

Function Approximation은 실용적 강화학습의 시작:

Tabular 방법의 한계 극복
현실 문제 적용 가능성 제공
현대 Deep RL의 이론적 기초

"이제 강화학습이 진짜 실세계 문제를 풀 준비가 되었다!"

함수 근사는 강화학습을 장난감 문제에서 실제 응용으로 끌어올린 핵심 기술이며, 현재 우리가 사용하는 모든 Deep RL 알고리즘의 이론적 토대임.

이 장에서 우리는 강화학습의 확장성 문제를 해결하는 핵심 도구를 손에 넣었음. 함수 근사를 통해 무한한 상태 공간도 유한한 매개변수로 다룰 수 있게 되었고, 일반화 능력을 통해 미경험 상황에서도 합리적인 판단을 할 수 있게 되었음.

선형 함수 근사에서 시작해서 신경망까지, 각각의 방법이 가진 장단점을 이해했음. 특히 안정성과 수렴성이라는 새로운 도전 과제들을 만났지만, 이를 해결하는 다양한 기법들도 배웠음. Gradient TD, Experience Replay, Target Networks 등은 모두 함수 근사의 불안정성을 극복하려는 노력의 결과임.

하지만 여전히 한 가지 아쉬운 점이 있음. 지금까지는 가치함수만 근사했지만, 정책 자체를 직접 근사하는 방법도 있음. 특히 연속 행동 공간에서는 정책을 직접 매개변수화하는 것이 더 자연스러울 수 있음. 또한 가치 기반 방법과 정책 기반 방법을 결합한 Actor-Critic 구조도 강력한 도구임.

다음 장에서는 이런 정책 기반 방법들을 살펴볼 예정임. Policy Gradient부터 시작해서 REINFORCE, Actor-Critic까지, 가치함수 없이도 직접 최적 정책을 학습하는 방법들을 알아보자. 함수 근사와 정책 기반 방법이 만나면, 연속 제어 같은 더 복잡한 문제들도 해결할 수 있게 됨.

테이블에서 함수로, 가치에서 정책으로. 강화학습의 지평이 계속 넓어지고 있음. 이제 정말로 현실 세계의 복잡한 문제들에 도전할 준비가 되었음.