AI 2026.05.03 · 11 min
Advanced Deep Rl Deep Dive · 1
Tabular RL은 왜 Atari를 풀 수 없는가
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
총 3개의 글
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.
Dueling Network의 분해부터 Noisy Net의 암묵적 탐험까지, Rainbow를 구성하는 다섯 요소가 공유하는 설계 철학과 그 수학적 근거를 추적한다.