AI 2026.05.03 · 10 min
Advanced Policy Gradient Deep Dive · 7
NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유
Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.
총 5개의 글
Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.
통계다양체의 기하학적 토대부터 Fisher 정보의 세 정의 동치성, Chentsov 유일성 정리, 그리고 Cramér-Rao 하한의 기하학적 의미까지 — 정보기하학의 핵심 구조를 추적한다.
유클리드 gradient의 parameterization 의존성 문제부터 Fisher 계량 하의 steepest descent 유도, K-FAC·Shampoo의 실전 근사까지, Natural Gradient의 철학과 구조를 추적한다.
Natural Policy Gradient의 Fisher 역행렬부터 확산 모델의 Fisher divergence까지, 정보기하의 단일 철학이 RL·생성 모델·샘플링에 어떻게 관통하는지 추적한다.
Loss landscape의 sharpness가 2/η 경계에 자가 안정화되는 Edge-of-Stability부터 Fisher metric 위의 Natural Gradient까지, 딥러닝 최적화의 공통 원리를 추적한다.