series · policy-gradient-deep-dive

📚 Policy Gradient Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 1

Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 2

REINFORCE는 왜 분산이 높은가

Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Policy Gradient Deep Dive · 3

Policy Gradient Theorem의 세 가지 얼굴

PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 4

Policy Gradient의 분산은 어떻게 줄이는가

Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.

AI 2026.05.03 · 8 min Advanced Policy Gradient Deep Dive · 5

GAE는 왜 λ 하나로 bias-variance를 제어할 수 있는가

TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.

AI 2026.05.03 · 12 min Advanced Policy Gradient Deep Dive · 6

Actor-Critic은 어떻게 진화했는가

Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 7

NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유

Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.