Tabular RL은 왜 Atari를 풀 수 없는가
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
총 7편 · 순서대로 읽기를 권장
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.
Jensen's inequality에서 비롯된 maximization bias의 수학적 구조부터 Double DQN이 online/target network 분리로 이를 제거하는 원리까지, 편향의 근원을 추적한다.
Dueling Network의 분해부터 Noisy Net의 암묵적 탐험까지, Rainbow를 구성하는 다섯 요소가 공유하는 설계 철학과 그 수학적 근거를 추적한다.
기댓값 하나로 축약된 Q-value가 놓치는 것들 — 분산, 꼬리 위험, 다봉 분포 — 부터 Wasserstein contraction, C51, QR-DQN, 그리고 Rainbow ablation의 실증까지, Distributional RL의 설계 철학을 추적한다.
6개 컴포넌트의 직교성부터 분산 학습, 잠재 공간 계획까지, Rainbow 이후 DQN 계보가 공유하는 하나의 설계 철학을 추적한다.
DQN이 연속 행동 공간에서 실패하는 수학적 이유부터 DDPG의 결정론적 정책 기울기 유도, Q-과대추정과 탐험 민감성까지, continuous control의 핵심 트레이드오프를 추적한다.