← all posts
AI 2026.05.03 · 9 min read Advanced

Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.


강화학습 교과서는 Q-Learning으로 시작한다. Q(s,a)Q^*(s,a)를 학습하고 π(s)=argmaxaQ(s,a)\pi(s) = \arg\max_a Q^*(s,a)로 정책을 뽑는다. 직관적이고 이론적 수렴 보장도 있다. 그런데 왜 Policy Gradient가 필요한가?

Value-based의 두 가지 벽

Value-based 방법이 무너지는 지점은 명확하다.

첫 번째는 연속 행동 공간이다. 로봇 팔 제어에서 행동은 Rd\mathbb{R}^d의 토크 벡터다. 매 스텝마다

π(s)=argmaxaRdQw(s,a)\pi(s) = \arg\max_{a \in \mathbb{R}^d} Q_w(s, a)

를 계산해야 하는데, 일반적인 QwQ_w에 대해 이는 non-convex 전역 최적화 문제다. 계산이 불가능하다.

두 번째는 확률적 최적 정책이다. Rock-Paper-Scissors를 생각하자. 상대방이 내 결정론적 정책을 알면 항상 이길 수 있다. 유일한 Nash equilibrium은 π=(1/3,1/3,1/3)\pi^* = (1/3, 1/3, 1/3)이다. Value-based의 greedy 추출은 항상 deterministic 정책을 만들므로, 이 균형에 도달할 수 없다.

Policy-based는 정책 자체를 파라미터화한다:

πθ(as)=learned distribution,maxθEτπθ[R(τ)]\pi_\theta(a|s) = \text{learned distribution}, \quad \max_\theta \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]

연속 공간에서는 Gaussian의 평균·분산을 학습하고, 확률적 최적이 필요한 환경에서는 그 분포를 직접 학습한다.

Stochasticity가 필수인 이유

“Policy-based는 stochastic policy를 학습할 수 있다”는 것은 단순한 기능 설명이 아니다. 때로는 deterministic policy로는 최적에 도달하는 것이 불가능하다.

명제 1 · Rock-Paper-Scissors의 유일한 Nash Equilibrium

Payoff matrix MM이 Rock-Paper-Scissors의 대칭 구조를 가질 때, 유일한 Nash equilibrium은 p=q=(1/3,1/3,1/3)p^* = q^* = (1/3, 1/3, 1/3)이며 이는 완전히 혼합된(fully mixed) 전략이다.

▷ 증명

Indifference condition: equilibrium에서 support의 모든 행동이 같은 기대 보상을 가져야 한다. MM의 회전 대칭성에 의해 균형도 대칭이어야 하므로 p=(p,p,p)p^* = (p, p, p). q=(qR,qP,qS)q^* = (q_R, q_P, q_S)에 대한 세 payoff가 동일하다는 조건을 풀면 qR=qP=qS=1/3q_R = q_P = q_S = 1/3이고, 대칭성에 의해 p=(1/3,1/3,1/3)p^* = (1/3, 1/3, 1/3). 이때 pTMq=0p^{*T} M q^* = 0. \square

부분 관측 환경(POMDP)에서도 마찬가지다. Sutton의 Aliased Gridworld처럼 두 다른 상태가 같은 관측을 만들 때, deterministic policy는 두 상태를 구분하지 못하고 한 경로만 탐색한다. Stochastic policy는 확률적 분기로 모든 경로를 커버한다.

Policy Parameterization: Score Function

Policy Gradient를 실제로 계산하려면 θlogπθ(as)\nabla_\theta \log \pi_\theta(a|s), 즉 score function을 명시적으로 구해야 한다.

이산 행동 (Softmax):

πθ(as)=exp(hθ(s,a))aexp(hθ(s,a))\pi_\theta(a|s) = \frac{\exp(h_\theta(s,a))}{\sum_{a'} \exp(h_\theta(s,a'))}

θlogπθ(as)=θhθ(s,a)Eaπθ[θhθ(s,a)]\nabla_\theta \log \pi_\theta(a|s) = \nabla_\theta h_\theta(s,a) - \mathbb{E}_{a' \sim \pi_\theta}[\nabla_\theta h_\theta(s,a')]

자신의 행동에 대한 gradient에서 모든 행동의 기대값을 뺀다. “평균보다 얼마나 선호되는가”를 측정하며, 이것이 나중에 advantage 함수와 연결된다.

연속 행동 (Gaussian):

πθ(as)=N(a;μθ(s),σθ(s)2)\pi_\theta(a|s) = \mathcal{N}(a;\, \mu_\theta(s),\, \sigma_\theta(s)^2)

logπμ=aμσ2,logπlogσ=(aμ)2σ21\frac{\partial \log \pi}{\partial \mu} = \frac{a - \mu}{\sigma^2}, \qquad \frac{\partial \log \pi}{\partial \log \sigma} = \frac{(a-\mu)^2}{\sigma^2} - 1

σ\sigmalogσ\log \sigma로 파라미터화하는 것은 관습이 아니다. σ>0\sigma > 0 제약을 자동으로 만족하고, σ0\sigma \to 0에서의 수치 불안정을 피한다.

Score function에는 중요한 성질이 있다:

Eaπθ[θlogπθ(as)]=θπθ(as)da=θ(1)=0\mathbb{E}_{a \sim \pi_\theta}[\nabla_\theta \log \pi_\theta(a|s)] = \nabla_\theta \int \pi_\theta(a|s)\, da = \nabla_\theta(1) = 0

기대값이 항상 0이다. 이 성질은 나중에 baseline을 빼도 gradient가 편향되지 않는다는 분산 감소 기법의 수학적 근거가 된다.

목적 함수 J(θ)의 세 얼굴

Policy의 성능 지표 J(θ)J(\theta)는 세 가지 등가한 방식으로 쓸 수 있다.

J(θ)=Eτπθ[R(τ)]=Es0ρ0[Vπθ(s0)]=sdπθ(s)aπθ(as)Qπθ(s,a)J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{s_0 \sim \rho_0}[V^{\pi_\theta}(s_0)] = \sum_s d^{\pi_\theta}(s) \sum_a \pi_\theta(a|s) Q^{\pi_\theta}(s,a)

세 번째 표현의 dπθ(s)d^{\pi_\theta}(s)discounted state distribution이다:

dπθ(s):=(1γ)t=0γtPr(st=sπθ,ρ0)d^{\pi_\theta}(s) := (1-\gamma) \sum_{t=0}^\infty \gamma^t \Pr(s_t = s \mid \pi_\theta, \rho_0)

(1γ)(1-\gamma) 인수는 단순한 정규화다. t=0γt=11γ\sum_{t=0}^\infty \gamma^t = \frac{1}{1-\gamma}이므로 이를 곱하면 sdπθ(s)=1\sum_s d^{\pi_\theta}(s) = 1이 된다. 즉 dπθd^{\pi_\theta}는 진짜 확률 분포다.

이 세 번째 정식화가 중요한 이유는 Policy Gradient Theorem의 형태가 이것을 기반으로 가장 깔끔하게 표현되기 때문이다. “정책이 자주 방문하는 상태를 더 중요하게 가중한다”는 on-policy 학습의 철학이 dπθd^{\pi_\theta}에 담겨 있다.

트레이드오프

Policy-based는 연속 행동과 확률적 최적 정책을 자연스럽게 다루지만, on-policy 특성상 sample efficiency가 낮다. Value-based는 off-policy replay로 sample을 재활용할 수 있어 이산 도메인(Atari 등)에서 빠르게 수렴한다. Gradient estimator의 분산 문제는 baseline·Actor-Critic 계열에서 완화된다.

정리

  • Value-based의 argmaxaQ(s,a)\arg\max_a Q(s,a)는 연속 행동 공간에서 계산 불가능하고, 확률적 최적 정책을 표현할 수 없다.
  • Stochastic policy는 선택이 아니라 일부 환경(경쟁, 부분 관측)에서 필수다.
  • Score function θlogπθ(as)\nabla_\theta \log \pi_\theta(a|s)는 Policy Gradient 계산의 핵심이며, 기대값이 항상 0이라는 성질이 이후 분산 감소 기법의 기반이 된다.
  • J(θ)J(\theta)의 세 정식화는 동등하며, discounted state distribution dπθd^{\pi_\theta}는 on-policy 가중치를 수학적으로 정의한다.

다음 글에서는 θJ(θ)\nabla_\theta J(\theta)를 Log-Derivative Trick으로 실제로 계산하는 과정, 즉 REINFORCE의 수학적 유도를 추적한다.

REF
Sutton, McAllester, Singh, Mansour · 2000 · Policy Gradient Methods for Reinforcement Learning with Function Approximation · NeurIPS