AI 2026.05.03 · 12 min
Advanced Deep Rl Deep Dive · 2
DQN은 어떻게 픽셀에서 인간을 이겼는가
Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.
총 1개의 글
Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.