AI 2026.05.03 · 11 min
Advanced Model Free Rl Deep Dive · 3
TD Learning은 왜 MC와 DP 사이에 서 있는가
TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.
총 1개의 글
TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.