#sarsa · IQ Lab

AI 2026.05.03 · 11 min Advanced Model Free Rl Deep Dive · 3

TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.