tag

#reparameterization

총 2개의 글

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 2

REINFORCE는 왜 분산이 높은가

Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.

AI 2026.04.28 · 12 min Advanced Bayesian Ml Deep Dive · 2

Variational Inference는 왜 ELBO를 최대화하는가

Intractable posterior를 tractable 분포로 근사하는 VI의 아이디어부터 ELBO의 세 분해, CAVI의 단조 수렴, reparameterization trick의 저분산 원리까지 하나의 최적화 철학으로 추적한다.