이 공식은 어디서 왔는가? 그리고 왜 이 공식이 REINFORCE부터 PPO, DDPG까지 거의 모든 현대 RL 알고리즘의 기초가 되는가?
세 핵심 양이 함께 만드는 의미
공식 안에는 세 가지 구성 요소가 있다.
Score function∇θlogπθ(a∣s)는 파라미터를 어느 방향으로 바꿀지 결정한다. 정규화 조건 ∑aπ(a∣s)=1을 미분하면 Ea∼π[∇logπ]=0이 자동으로 성립한다. Score function은 항상 중심화되어 있다.
Q-valueQπ(s,a)는 각 행동의 절대적 가치다. Score function에 Q-value를 곱함으로써 좋은 행동만 강화하고 나쁜 행동은 억제한다.
Discounted state distributiondπ(s)는 정책 π를 따를 때 상태 s를 방문할 확률의 discounted 가중 합이다.
dπ(s):=(1−γ)t=0∑∞γtPr(st=s∣πθ,ρ0)
(1−γ) 정규화 항이 있기 때문에 ∑sdπ(s)=1이 성립한다. 이 세 양을 합치면 하나의 직관이 된다: “정책이 자주 방문하는 상태에서, 현재 정책이 선택하는 행동 중 좋은 것은 더 자주, 나쁜 것은 덜 자주 하도록 파라미터를 업데이트하라.”
두 증명이 보여주는 서로 다른 직관
Policy Gradient Theorem은 두 가지 경로로 증명된다. 결론은 같지만 직관이 다르다.
PDL 기반 증명 (Kakade & Langford 2002)은 두 정책의 성능 차에서 출발한다.
J(π′)−J(π)=1−γ1Es∼dπ′,a∼π′[Aπ(s,a)]
여기서 π′=πθ+ϵ으로 두고 ϵ→0 극한을 취한다. Leibniz 규칙으로 기대값과 미분을 교환하면, dπ′가 dπ로 바뀌고 log-derivative trick을 통해 PG Theorem이 나온다. 이 경로의 핵심은 ϵ이 유한할 때 우변이 surrogate objective가 된다는 점이다. TRPO와 PPO는 이 surrogate를 최대화하되 π′와 π의 KL divergence를 제한하는 구조다.
이 경로는 dπ가 단순한 가중치 분포가 아니라 Bellman 재귀의 기하학적 구조에서 자연스럽게 등장함을 보여준다.
Qπ를 Aπ로 바꿀 수 있는 이유
명제 1
· State-Dependent Baseline의 Unbiasedness
임의의 정책 π와 state function b(s)에 대해:
Ea∼π(⋅∣s)[∇θlogπ(a∣s)⋅b(s)]=0
▷ 증명
정규화 ∑aπ(a∣s)=1을 θ로 미분하면 ∑a∂θ∂π=0. Log-derivative trick ∂π=π∂logπ를 적용하면 Ea∼π[∇logπ(a∣s)]=0. b(s)는 a에 무관하므로 기대값 밖으로 나올 수 있고, b(s)⋅0=0. □
∎
이 명제의 귀결이 Actor-Critic의 이론적 정당화다. b(s)=Vπ(s)로 설정하면:
E[∇logπ⋅Qπ]=E[∇logπ⋅Aπ]
두 기대값은 동일하다. 반면 action-dependent baselineb(s,a)는 이 논리가 깨진다. b(s,a)와 ∇logπ(a∣s)가 상관될 수 있기 때문이다. Softmax 정책에서 b(s,a)=waTϕ(s)로 설정하면 E[ϕ(s)⋅waTϕ(s)]=tr(waE[ϕϕT])=0이 되어 편향이 발생한다.
✎ 트레이드오프
Aπ 대신 Qπ를 쓰면 unbiased이지만 variance가 크다. b(s)=Vπ(s)를 빼면 variance를 줄이면서 unbiasedness를 유지할 수 있다. 이론적으로 최적 baseline은 b∗(s)=E[(∇logπ)2Q]/E[(∇logπ)2]이지만 계산 불가능하므로, 실전에서는 학습된 V(s)로 근사한다.
Deterministic PG — action 적분을 없애다
Stochastic PG는 action에 대한 기대값을 계산해야 한다. 연속 행동 공간에서 이것은 high-variance의 원인이 된다. Silver (2014)의 Deterministic Policy Gradient는 정책을 μθ:S→A로 고정함으로써 이 적분을 제거한다.
∇θJ(θ)=Es∼dμ[∇θμθ(s)⋅∇aQμ(s,a)a=μ(s)]
Vμ(s)=Qμ(s,μ(s))이므로 chain rule을 직접 적용할 수 있다. Action에 대한 기대값이 사라지고, state distribution에 대한 기대값만 남는다.
속성
Stochastic PG
Deterministic PG
Action sampling
필요
불필요
Score function
∇logπ 필요
불필요
Variance
높음
낮음
Discrete action
자연스러움
어려움
Off-policy
복잡
용이
DPG의 variance가 낮은 이유는 action에 내재된 불확실성(H(a∣s)>0)이 gradient에 전파되지 않기 때문이다. 탐험은 noise injection으로 분리되고, gradient 경로는 상태 → 정책 → 행동 → Q-value의 단일 경로만 남는다. 이것이 DDPG, TD3의 토대다. SAC는 reparameterization trick을 통해 stochastic 정책을 유지하면서 DPG와 유사한 low-variance gradient를 얻는다.
정리
dπ는 “정책이 자주 방문하는 상태”를 가중치로 표현하며, Bellman 재귀의 geometric series에서 자연스럽게 등장한다.
PDL 기반 증명은 surrogate objective로의 다리를 놓고 (TRPO/PPO의 동기), Direct Unrolling은 dπ의 기하학적 의미를 명확히 한다.
정규화 조건 ∑aπ=1에서 score function의 기대값이 0임이 도출되고, 이것이 Qπ→Aπ 치환의 유일한 근거다.