← all posts
AI 2026.05.03 · 11 min read Advanced

Tabular RL은 왜 Atari를 풀 수 없는가

state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.


Tabular Q-Learning은 이론적으로 완벽하다. Watkins(1992)의 수렴 정리는 모든 (s,a)(s, a)를 무한히 방문하면 QtQQ_t \to Q^*가 거의 확실히 성립함을 보장한다. 그런데 왜 Atari나 Go에는 쓸 수 없는가? 그리고 그 대안인 함수 근사가 왜 단순히 “신경망을 끼워 넣는 것”만으로는 안 되는가?

이론과 현실 사이: state space 폭발

Tabular 방식의 전제는 Q(s,a)Q(s, a) 테이블이 메모리에 들어가고, 모든 항목이 충분히 자주 갱신된다는 것이다. Atari 한 프레임을 보자.

SAtari25684×84=25670561016943|\mathcal{S}|_{\text{Atari}} \approx 256^{84 \times 84} = 256^{7056} \approx 10^{16943}

우주의 원자 수가 1080\sim 10^{80}이다. 101010^{10}번 플레이해도 전체 state space의 1016,93310^{-16,933}을 방문한다. Go 바둑판은 조금 낫지만 상황은 같다.

SGo336110172|\mathcal{S}|_{\text{Go}} \approx 3^{361} \approx 10^{172}

Watkins 정리의 핵심 조건, “모든 (s,a)(s, a)를 무한히 방문”은 유한 시간에는 결코 충족되지 않는다. 더 근본적으로 Tabular는 generalization이 없다s1s_1에서 배운 것이 s2s_2에 전혀 전이되지 않는다. 비슷한 픽셀 패턴을 가진 두 프레임이라도 테이블에서는 완전히 독립적인 항목이다.

이것이 함수 근사의 동기다. 파라미터 θRp\theta \in \mathbb{R}^pQ(s,a;θ)Q(s, a; \theta)를 표현하면 pS×Ap \ll |\mathcal{S}| \times |\mathcal{A}|이고, 비슷한 state끼리 표현을 공유한다.

Deadly Triad: 함수 근사가 발산하는 조건

함수 근사를 도입하면 새로운 문제가 생긴다. Baird(1995)의 7상태 별 MDP는 이 문제의 가장 간결한 증거다. 7개 state, reward 전부 0, 선형 함수 근사 — 이 단순한 설정에서 가중치 norm이 지수적으로 발산한다.

정리 1 · Deadly Triad 발산 (Baird 1995)

다음 세 조건이 동시에 충족될 때, 선형 TD 알고리즘이 발산할 수 있다.

  1. Off-policy — behavior policy와 target policy가 다름
  2. Bootstrapping — 추정값으로 target을 구성
  3. Function approximation — parametric class로 value를 근사

구체적으로:

limtθt2=(with positive probability)\lim_{t \to \infty} \|\theta_t\|_2 = \infty \quad \text{(with positive probability)}

▷ 증명

선형 TD 업데이트를 행렬로 쓰면

θt+1=Mθt+b,M=Iαϕϕ+αγϕϕ\theta_{t+1} = M \theta_t + b, \quad M = I - \alpha \phi\phi^\top + \alpha\gamma \phi\phi'^\top

off-policy의 policy mismatch가 λmax(M)>1\lambda_{\max}(M) > 1을 만들 수 있다. 이 경우

θtλmax(M)tθ0\|\theta_t\| \approx \lambda_{\max}(M)^t \|\theta_0\| \to \infty

조건 중 하나라도 제거하면 수렴한다. On-policy만 사용하거나, bootstrapping을 Monte Carlo로 교체하거나, Tabular로 돌아가면 각각 수렴이 회복된다. \square

Projection의 비수축성

발산의 수학적 뿌리는 projection operator에 있다. Tabular Bellman operator TT^*\|\cdot\|_\infty norm 하에서 γ\gamma-contraction이다.

TuTvγuv\|T^* u - T^* v\|_\infty \leq \gamma \|u - v\|_\infty

함수 근사를 쓰면 TT^*의 출력을 파라미터 공간 F\mathcal{F}로 투영해야 한다. 문제는 ΠT\Pi T^*가 일반적으로 contraction이 아니라는 것이다.

ΠTuΠTv>γuv(가능)\|\Pi T^* u - \Pi T^* v\| > \gamma \|u - v\| \quad \text{(가능)}

Banach 고정점 정리는 contraction에만 적용된다. ΠT\Pi T^*의 고정점이 존재하더라도 iteration이 그쪽으로 수렴한다는 보장이 없다. Baird의 발산은 정확히 λmax(ΠT)>1\lambda_{\max}(\Pi T^*) > 1인 경우다.

트레이드오프

표현력 vs 안정성. 선형 FA는 분석이 쉽고 Tsitsiklis & Van Roy(1997)의 on-policy 수렴 정리가 있지만 표현력이 낮아 복잡한 task에 쓸 수 없다. 비선형 FA(NN)는 표현력이 충분하지만 deadly triad 외에도 sample correlation, non-stationary target, catastrophic forgetting이라는 세 가지 추가 도전이 생긴다.

DNN: 표현력은 충분하지만 새로운 세 가지 문제

Universal Approximation 정리(Cybenko 1989)에 따르면 충분히 넓은 1-hidden layer NN은 임의의 연속 함수를 ϵ\epsilon-근사한다. CNN의 계층 구조는 이보다 실용적이다 — 픽셀에서 에지로, 에지에서 객체로, 객체에서 전략으로 이어지는 hierarchical feature를 자동으로 학습한다. 이 distributed representation이 generalization을 가능하게 한다.

그러나 DNN을 Q-Learning에 단순히 끼워 넣으면 세 가지 문제가 동시에 발생한다.

Sample correlation: 연속 trajectory (st,st+1,)(s_t, s_{t+1}, \ldots)는 강한 시계열 상관을 갖는다. SGD의 i.i.d. 가정이 위배되어 gradient 추정이 편향된다.

Non-stationary target: yt=rt+γmaxaQ(st+1,a;θt)y_t = r_t + \gamma \max_a Q(s_{t+1}, a; \theta_t)θt\theta_t에 의존한다. θ\theta가 바뀌면 target도 바뀐다 — “자신의 꼬리를 쫓는” 상황.

Catastrophic forgetting: 새로운 state를 학습하면서 이전 state에 대한 가중치를 덮어쓴다. RL의 sequential 특성상 특히 심각하다.

DQN(Mnih et al. 2015)의 세 trick은 이 세 문제에 각각 대응한다. Experience Replay는 sample correlation을 깨고, Target Network는 θ\theta^-CC 스텝 동안 고정하여 non-stationary target을 완화하며, Reward Clipping은 게임 간 scale 불일치를 제거한다.

정리

  • Tabular Q-Learning의 수렴 보장은 “모든 state-action 쌍을 무한히 방문”을 전제한다. Atari에서 이 조건은 물리적으로 충족 불가능하다.
  • Off-policy + bootstrapping + function approximation이 동시에 충족되면 발산한다(Baird 1995). 조건 셋 중 하나만 제거해도 수렴이 회복된다.
  • 발산의 수학적 원인은 ΠT\Pi T^*의 비수축성이다 — Bellman operator 자체는 γ\gamma-contraction이지만 projection을 합성하면 보장이 깨진다.
  • DNN은 universal approximation과 계층적 표현으로 generalization을 제공하지만, 새로운 세 도전(sample correlation, non-stationary target, catastrophic forgetting)을 낳는다.
  • DQN의 세 trick은 이 도전들을 engineering 수준에서 완화한다. 다음 글에서는 Experience Replay와 Target Network의 내부 동작을 구체적으로 추적한다.