AI 2026.05.03 · 11 min
Advanced Deep Rl Deep Dive · 1
Tabular RL은 왜 Atari를 풀 수 없는가
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
총 3개의 글
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
무한 상태 공간의 선형 근사부터 Deadly Triad의 발산, Linear MDP의 수렴 보장, Bisimulation 기반 상태 추상화까지 — 함수 근사의 수렴 조건을 추적한다.
Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.