Tabular RL은 왜 Atari를 풀 수 없는가
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
- 01 Tabular RL은 왜 Atari를 풀 수 없는가
- 02 DQN은 어떻게 픽셀에서 인간을 이겼는가
- 03 Q-Learning은 왜 항상 과대평가하는가
- 04 Rainbow DQN의 다섯 가지 개선은 왜 함께 작동하는가
- 05 Return을 분포로 보면 무엇이 달라지는가
- 06 Rainbow에서 MuZero까지 — DQN 진화의 통일된 논리
- 07 DDPG는 왜 불안정한가 — Continuous Control의 설계와 균열
Tabular Q-Learning은 이론적으로 완벽하다. Watkins(1992)의 수렴 정리는 모든 를 무한히 방문하면 가 거의 확실히 성립함을 보장한다. 그런데 왜 Atari나 Go에는 쓸 수 없는가? 그리고 그 대안인 함수 근사가 왜 단순히 “신경망을 끼워 넣는 것”만으로는 안 되는가?
이론과 현실 사이: state space 폭발
Tabular 방식의 전제는 테이블이 메모리에 들어가고, 모든 항목이 충분히 자주 갱신된다는 것이다. Atari 한 프레임을 보자.
우주의 원자 수가 이다. 번 플레이해도 전체 state space의 을 방문한다. Go 바둑판은 조금 낫지만 상황은 같다.
Watkins 정리의 핵심 조건, “모든 를 무한히 방문”은 유한 시간에는 결코 충족되지 않는다. 더 근본적으로 Tabular는 generalization이 없다 — 에서 배운 것이 에 전혀 전이되지 않는다. 비슷한 픽셀 패턴을 가진 두 프레임이라도 테이블에서는 완전히 독립적인 항목이다.
이것이 함수 근사의 동기다. 파라미터 로 를 표현하면 이고, 비슷한 state끼리 표현을 공유한다.
Deadly Triad: 함수 근사가 발산하는 조건
함수 근사를 도입하면 새로운 문제가 생긴다. Baird(1995)의 7상태 별 MDP는 이 문제의 가장 간결한 증거다. 7개 state, reward 전부 0, 선형 함수 근사 — 이 단순한 설정에서 가중치 norm이 지수적으로 발산한다.
다음 세 조건이 동시에 충족될 때, 선형 TD 알고리즘이 발산할 수 있다.
- Off-policy — behavior policy와 target policy가 다름
- Bootstrapping — 추정값으로 target을 구성
- Function approximation — parametric class로 value를 근사
구체적으로:
선형 TD 업데이트를 행렬로 쓰면
off-policy의 policy mismatch가 을 만들 수 있다. 이 경우
조건 중 하나라도 제거하면 수렴한다. On-policy만 사용하거나, bootstrapping을 Monte Carlo로 교체하거나, Tabular로 돌아가면 각각 수렴이 회복된다.
Projection의 비수축성
발산의 수학적 뿌리는 projection operator에 있다. Tabular Bellman operator 는 norm 하에서 -contraction이다.
함수 근사를 쓰면 의 출력을 파라미터 공간 로 투영해야 한다. 문제는 가 일반적으로 contraction이 아니라는 것이다.
Banach 고정점 정리는 contraction에만 적용된다. 의 고정점이 존재하더라도 iteration이 그쪽으로 수렴한다는 보장이 없다. Baird의 발산은 정확히 인 경우다.
표현력 vs 안정성. 선형 FA는 분석이 쉽고 Tsitsiklis & Van Roy(1997)의 on-policy 수렴 정리가 있지만 표현력이 낮아 복잡한 task에 쓸 수 없다. 비선형 FA(NN)는 표현력이 충분하지만 deadly triad 외에도 sample correlation, non-stationary target, catastrophic forgetting이라는 세 가지 추가 도전이 생긴다.
DNN: 표현력은 충분하지만 새로운 세 가지 문제
Universal Approximation 정리(Cybenko 1989)에 따르면 충분히 넓은 1-hidden layer NN은 임의의 연속 함수를 -근사한다. CNN의 계층 구조는 이보다 실용적이다 — 픽셀에서 에지로, 에지에서 객체로, 객체에서 전략으로 이어지는 hierarchical feature를 자동으로 학습한다. 이 distributed representation이 generalization을 가능하게 한다.
그러나 DNN을 Q-Learning에 단순히 끼워 넣으면 세 가지 문제가 동시에 발생한다.
Sample correlation: 연속 trajectory 는 강한 시계열 상관을 갖는다. SGD의 i.i.d. 가정이 위배되어 gradient 추정이 편향된다.
Non-stationary target: 는 에 의존한다. 가 바뀌면 target도 바뀐다 — “자신의 꼬리를 쫓는” 상황.
Catastrophic forgetting: 새로운 state를 학습하면서 이전 state에 대한 가중치를 덮어쓴다. RL의 sequential 특성상 특히 심각하다.
DQN(Mnih et al. 2015)의 세 trick은 이 세 문제에 각각 대응한다. Experience Replay는 sample correlation을 깨고, Target Network는 를 스텝 동안 고정하여 non-stationary target을 완화하며, Reward Clipping은 게임 간 scale 불일치를 제거한다.
정리
- Tabular Q-Learning의 수렴 보장은 “모든 state-action 쌍을 무한히 방문”을 전제한다. Atari에서 이 조건은 물리적으로 충족 불가능하다.
- Off-policy + bootstrapping + function approximation이 동시에 충족되면 발산한다(Baird 1995). 조건 셋 중 하나만 제거해도 수렴이 회복된다.
- 발산의 수학적 원인은 의 비수축성이다 — Bellman operator 자체는 -contraction이지만 projection을 합성하면 보장이 깨진다.
- DNN은 universal approximation과 계층적 표현으로 generalization을 제공하지만, 새로운 세 도전(sample correlation, non-stationary target, catastrophic forgetting)을 낳는다.
- DQN의 세 trick은 이 도전들을 engineering 수준에서 완화한다. 다음 글에서는 Experience Replay와 Target Network의 내부 동작을 구체적으로 추적한다.