tag

#td-lambda

총 2개의 글

AI 2026.05.03 · 8 min Advanced Policy Gradient Deep Dive · 5

TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 5

TD(0)와 MC 사이의 연속체를 n-step return이 어떻게 매개변수화하는가. bias-variance 트레이드오프의 수학적 분해부터 eligibility trace의 세 가지 구현까지.