AI 2026.05.03 · 10 min
Advanced Policy Gradient Deep Dive · 7
NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유
Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.
총 5개의 글
Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.
통계다양체의 기하학적 토대부터 Fisher 정보의 세 정의 동치성, Chentsov 유일성 정리, 그리고 Cramér-Rao 하한의 기하학적 의미까지 — 정보기하학의 핵심 구조를 추적한다.
편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.
로그밀도의 선형성에서 출발해 쌍대평탄(dually flat) 구조까지, 지수족이 정보기하의 중심이 되는 이유를 추적한다.
유클리드 gradient의 parameterization 의존성 문제부터 Fisher 계량 하의 steepest descent 유도, K-FAC·Shampoo의 실전 근사까지, Natural Gradient의 철학과 구조를 추적한다.