AI 2026.05.03 · 9 min
Advanced Policy Gradient Deep Dive · 2
REINFORCE는 왜 분산이 높은가
Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.