AI 2026.05.03 · 11 min
Advanced Policy Gradient Deep Dive · 3
Policy Gradient Theorem의 세 가지 얼굴
PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.
총 4개의 글
PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.
Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.
Bootstrap의 63.2% 법칙부터 Bagging의 분산 감소 공식, RF의 ρ 감소 전략, 수렴 보장, Feature Importance의 함정까지 — 앙상블 이론의 통일된 공식을 추적한다.
L-smooth 볼록 함수의 O(1/k) 수렴부터 Nesterov 가속의 최적성, 뉴턴 방법의 이차 수렴, 분산 감소 기법의 선형 수렴까지 — 1차 최적화 이론의 핵심 정리를 하나의 흐름으로 추적한다.