AI 2026.05.03 · 10 min
Advanced Policy Gradient Deep Dive · 4
Policy Gradient의 분산은 어떻게 줄이는가
Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.