AI 2026.05.03 · 11 min
Advanced Model Free Rl Deep Dive · 3
TD Learning은 왜 MC와 DP 사이에 서 있는가
TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.
총 5개의 글
TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.
TD(0)와 MC 사이의 연속체를 n-step return이 어떻게 매개변수화하는가. bias-variance 트레이드오프의 수학적 분해부터 eligibility trace의 세 가지 구현까지.
가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.
편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.