Rainbow에서 MuZero까지 — DQN 진화의 통일된 논리
6개 컴포넌트의 직교성부터 분산 학습, 잠재 공간 계획까지, Rainbow 이후 DQN 계보가 공유하는 하나의 설계 철학을 추적한다.
- 01 Tabular RL은 왜 Atari를 풀 수 없는가
- 02 DQN은 어떻게 픽셀에서 인간을 이겼는가
- 03 Q-Learning은 왜 항상 과대평가하는가
- 04 Rainbow DQN의 다섯 가지 개선은 왜 함께 작동하는가
- 05 Return을 분포로 보면 무엇이 달라지는가
- 06 Rainbow에서 MuZero까지 — DQN 진화의 통일된 논리
- 07 DDPG는 왜 불안정한가 — Continuous Control의 설계와 균열
DQN은 단순하다. 하나의 Q-네트워크, 균일 샘플링, 단일 스텝 TD 오차. 그런데 2018년부터 2020년 사이, 이 단순한 구조 위에 여섯 개의 트릭이 쌓이고(Rainbow), 수백 개의 액터가 병렬로 붙고(Ape-X), LSTM이 시간 축을 늘리고(R2D2), 마침내 환경 규칙을 모른 채 잠재 공간에서 MCTS를 수행하는 모델(MuZero)이 등장했다. 이 모든 변화가 하나의 방향을 가리킨다 — DQN의 약점 목록을 체계적으로 소거한다. 그 논리는 무엇인가?
Rainbow — 직교 분해의 미학
Rainbow(Hessel 2018)의 핵심 주장은 단순하다. DQN의 실패 원인은 여섯 가지이고, 각각의 해결책은 서로 독립적(orthogonal)이다.
| 문제 | 해결책 |
|---|---|
| 과대추정 편향 | Double DQN |
| Q 분산 | Dueling Network |
| 샘플 효율 | PER |
| 시간 지평 | Multi-step return |
| 분포 무시 | Distributional (C51) |
| 탐색 부족 | Noisy Net |
“직교적”이라는 말은 수학적으로 엄밀하다. Double DQN은 타깃 선택(action selection)의 편향을 줄이고, Distributional은 손실 함수의 KL 발산을 최소화한다. 두 컴포넌트의 기울기 경로가 다르기 때문에 곱셈 또는 덧셈으로 결합할 수 있다. Rainbow의 통합 손실은 이를 반영한다.
여기서 는 PER의 중요도 가중치이고, 는 Multi-step과 Double을 통합한 분포 벨만 연산자다. 각 항은 독립적으로 추가된다.
Hessel 2018의 ablation 결과는 흥미롭다. 여섯 컴포넌트의 개별 기여를 단순히 더하면 실제 Rainbow 성능에 못 미친다. Multi-step과 PER은 특히 강한 시너지를 만든다 — n-step return의 높은 분산이 PER의 우선순위 계산을 더 의미 있게 만들기 때문이다. 직교성은 독립적 추가를 가능하게 하지만, 상호 강화를 막지는 않는다.
Ablation — 무엇이 정말 중요한가
Rainbow를 분해하면 컴포넌트마다 기여도가 균등하지 않다.
Hessel 2018의 ablation(57개 Atari 게임, human-normalized score 중앙값 기준)은 세 계층을 드러낸다.
- 결정적(Critical): Multi-step (), Distributional (), PER ()
- 중요: Noisy Net ()
- 한계적(Marginal): Double DQN, Dueling (각 )
대부분의 컴포넌트 쌍은 추가 순서에 무관하게 최종 수렴 성능이 거의 동일하다. 단, PER과 Multi-step을 결합할 때 초기 학습 곡선(transient)은 순서에 따라 다를 수 있다.
직교 컴포넌트의 손실이 가산적(additive) 또는 스칼라 곱셈으로 결합 가능할 때, 손실 최솟값은 추가 순서에 무관하다. PER+Multi-step의 경우 초기에 큰 n-step 분산이 PER 우선순위를 부풀리는 transient 효과가 있으나, 점근적으로(asymptotically) 수렴점은 동일하다. 따라서 Hessel 2018이 제안하는 순서(Double → Dueling → PER → Multi-step → Distributional → Noisy)는 임의적 관례가 아니라 초기 학습 안정성을 위한 추천이다.
이 결과가 실무에 주는 메시지는 명확하다. 새로운 환경에 Rainbow를 적용할 때, Multi-step과 Distributional을 먼저 구현하고 나머지는 나중에 추가하라.
Post-Rainbow — 규모와 기억의 축
Rainbow는 단일 머신, 균일 관찰, 단순 MDP를 가정한다. 이 세 가정을 깨는 방향이 곧 Ape-X, R2D2, IMPALA다.
**Ape-X(Horgan 2018)**는 가로 축으로 확장한다. 수백 개의 액터가 병렬로 경험을 생성하고 중앙 PER 버퍼에 저장하며, 단일 학습자(learner)가 GPU에서 배치를 샘플링한다. 256개 액터 기준 단일 머신 대비 50~100배 빠른 학습이 가능하다.
**R2D2(Kapturowski 2019)**는 세로 축(시간)으로 확장한다. LSTM hidden state가 에피소드 경계를 넘어 carry-over되고, episode 시작 후 초반 스텝은 burn-in으로 처리해 hidden state가 수렴한 뒤 손실을 계산한다. 부분 관찰(partial observability) 환경에서 단순 frame-stack보다 훨씬 정확한 상태 표현을 제공한다.
**IMPALA(Espeholt 2018)**는 액터와 학습자의 정책 격차 문제를 V-trace로 해결한다.
중요도 비율을 으로 클리핑하면 분산 폭증을 막으면서도 off-policy 편향을 보정한다.
MuZero — 모델 없이 계획하기
MuZero(Schrittwieser 2020)는 방향이 다르다. 앞선 알고리즘들이 모두 model-free였다면, MuZero는 환경 규칙 없이도 잠재 공간에서 MCTS를 수행한다.
세 네트워크가 역할을 분담한다.
표현 네트워크 가 원시 관찰을 압축하고, 동역학 네트워크 가 잠재 공간에서 전이를 시뮬레이션하며, 예측 네트워크 가 정책과 가치를 출력한다. MCTS는 이 잠재 공간 트리에서 수행된다. 픽셀을 직접 예측할 필요가 없다 — 행동 가치를 정확히 예측하는 잠재 표현이면 충분하다.
손실은 세 항의 합이다.
보상 예측 손실 이 동역학 네트워크 를 직접 교정한다. 이것이 핵심이다 — 보상만 정확하면 장기 가치도 자동으로 개선된다.
결과는 인상적이다. Atari에서 Rainbow가 약 50M 스텝을 요구하는 반면 MuZero는 5M 스텝으로 동등한 성능을 달성한다. Go, Chess, Shogi에서는 AlphaZero를 능가한다.
MuZero의 잠재 공간 모델은 계획 지평선 내에서만 정확하면 된다는 설계 철학을 갖는다. 반면 장기 계획이나 희소 보상 환경에서는 표현 네트워크가 essential statistics를 놓칠 수 있다. MCTS의 시뮬레이션당 연산 비용도 실시간 제약이 있는 로봇 제어에서는 병목이 된다.
정리
Rainbow부터 MuZero까지의 흐름을 하나의 문장으로 요약하면: DQN의 각 약점을 직교하는 해결책으로 소거하고, 그 구조를 점진적으로 확장했다.
- Rainbow: 여섯 컴포넌트는 직교하므로 독립적으로 추가 가능하다. 가장 중요한 것은 Multi-step과 Distributional이다.
- Ape-X / R2D2 / IMPALA: 단일 머신, 마르코프 가정, on-policy 가정을 각각 완화한다.
- MuZero: 환경 모델 없이도 잠재 공간 MCTS로 model-based의 샘플 효율을 달성한다.
- 남은 질문: 이 계보가 연속 제어와 부분 관찰 로봇 환경에서 어디까지 일반화되는가.