AI 2026.05.03 · 11 min
Advanced Deep Rl Deep Dive · 5
Return을 분포로 보면 무엇이 달라지는가
기댓값 하나로 축약된 Q-value가 놓치는 것들 — 분산, 꼬리 위험, 다봉 분포 — 부터 Wasserstein contraction, C51, QR-DQN, 그리고 Rainbow ablation의 실증까지, Distributional RL의 설계 철학을 추적한다.
총 2개의 글
기댓값 하나로 축약된 Q-value가 놓치는 것들 — 분산, 꼬리 위험, 다봉 분포 — 부터 Wasserstein contraction, C51, QR-DQN, 그리고 Rainbow ablation의 실증까지, Distributional RL의 설계 철학을 추적한다.
6개 컴포넌트의 직교성부터 분산 학습, 잠재 공간 계획까지, Rainbow 이후 DQN 계보가 공유하는 하나의 설계 철학을 추적한다.