Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.

강화학습 교과서는 Q-Learning으로 시작한다. $Q^*(s,a)$ 를 학습하고 $\pi(s) = \arg\max_a Q^*(s,a)$ 로 정책을 뽑는다. 직관적이고 이론적 수렴 보장도 있다. 그런데 왜 Policy Gradient가 필요한가?

Value-based의 두 가지 벽

Value-based 방법이 무너지는 지점은 명확하다.

첫 번째는 연속 행동 공간이다. 로봇 팔 제어에서 행동은 $\mathbb{R}^d$ 의 토크 벡터다. 매 스텝마다

$\pi(s) = \arg\max_{a \in \mathbb{R}^d} Q_w(s, a)$

를 계산해야 하는데, 일반적인 $Q_w$ 에 대해 이는 non-convex 전역 최적화 문제다. 계산이 불가능하다.

두 번째는 확률적 최적 정책이다. Rock-Paper-Scissors를 생각하자. 상대방이 내 결정론적 정책을 알면 항상 이길 수 있다. 유일한 Nash equilibrium은 $\pi^* = (1/3, 1/3, 1/3)$ 이다. Value-based의 greedy 추출은 항상 deterministic 정책을 만들므로, 이 균형에 도달할 수 없다.

Policy-based는 정책 자체를 파라미터화한다:

$\pi_\theta(a|s) = \text{learned distribution}, \quad \max_\theta \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$

연속 공간에서는 Gaussian의 평균·분산을 학습하고, 확률적 최적이 필요한 환경에서는 그 분포를 직접 학습한다.

Stochasticity가 필수인 이유

“Policy-based는 stochastic policy를 학습할 수 있다”는 것은 단순한 기능 설명이 아니다. 때로는 deterministic policy로는 최적에 도달하는 것이 불가능하다.

명제 1 · Rock-Paper-Scissors의 유일한 Nash Equilibrium

Payoff matrix $M$ 이 Rock-Paper-Scissors의 대칭 구조를 가질 때, 유일한 Nash equilibrium은 $p^* = q^* = (1/3, 1/3, 1/3)$ 이며 이는 완전히 혼합된(fully mixed) 전략이다.

▷ 증명

Indifference condition: equilibrium에서 support의 모든 행동이 같은 기대 보상을 가져야 한다. $M$ 의 회전 대칭성에 의해 균형도 대칭이어야 하므로 $p^* = (p, p, p)$ . $q^* = (q_R, q_P, q_S)$ 에 대한 세 payoff가 동일하다는 조건을 풀면 $q_R = q_P = q_S = 1/3$ 이고, 대칭성에 의해 $p^* = (1/3, 1/3, 1/3)$ . 이때 $p^{*T} M q^* = 0$ . $\square$

∎

부분 관측 환경(POMDP)에서도 마찬가지다. Sutton의 Aliased Gridworld처럼 두 다른 상태가 같은 관측을 만들 때, deterministic policy는 두 상태를 구분하지 못하고 한 경로만 탐색한다. Stochastic policy는 확률적 분기로 모든 경로를 커버한다.

Policy Parameterization: Score Function

Policy Gradient를 실제로 계산하려면 $\nabla_\theta \log \pi_\theta(a|s)$ , 즉 score function을 명시적으로 구해야 한다.

이산 행동 (Softmax):

$\pi_\theta(a|s) = \frac{\exp(h_\theta(s,a))}{\sum_{a'} \exp(h_\theta(s,a'))}$

$\nabla_\theta \log \pi_\theta(a|s) = \nabla_\theta h_\theta(s,a) - \mathbb{E}_{a' \sim \pi_\theta}[\nabla_\theta h_\theta(s,a')]$

자신의 행동에 대한 gradient에서 모든 행동의 기대값을 뺀다. “평균보다 얼마나 선호되는가”를 측정하며, 이것이 나중에 advantage 함수와 연결된다.

연속 행동 (Gaussian):

$\pi_\theta(a|s) = \mathcal{N}(a;\, \mu_\theta(s),\, \sigma_\theta(s)^2)$

$\frac{\partial \log \pi}{\partial \mu} = \frac{a - \mu}{\sigma^2}, \qquad \frac{\partial \log \pi}{\partial \log \sigma} = \frac{(a-\mu)^2}{\sigma^2} - 1$

$\sigma$ 를 $\log \sigma$ 로 파라미터화하는 것은 관습이 아니다. $\sigma > 0$ 제약을 자동으로 만족하고, $\sigma \to 0$ 에서의 수치 불안정을 피한다.

Score function에는 중요한 성질이 있다:

$\mathbb{E}_{a \sim \pi_\theta}[\nabla_\theta \log \pi_\theta(a|s)] = \nabla_\theta \int \pi_\theta(a|s)\, da = \nabla_\theta(1) = 0$

기대값이 항상 0이다. 이 성질은 나중에 baseline을 빼도 gradient가 편향되지 않는다는 분산 감소 기법의 수학적 근거가 된다.

목적 함수 J(θ)의 세 얼굴

Policy의 성능 지표 $J(\theta)$ 는 세 가지 등가한 방식으로 쓸 수 있다.

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{s_0 \sim \rho_0}[V^{\pi_\theta}(s_0)] = \sum_s d^{\pi_\theta}(s) \sum_a \pi_\theta(a|s) Q^{\pi_\theta}(s,a)$

세 번째 표현의 $d^{\pi_\theta}(s)$ 는 discounted state distribution이다:

$d^{\pi_\theta}(s) := (1-\gamma) \sum_{t=0}^\infty \gamma^t \Pr(s_t = s \mid \pi_\theta, \rho_0)$

$(1-\gamma)$ 인수는 단순한 정규화다. $\sum_{t=0}^\infty \gamma^t = \frac{1}{1-\gamma}$ 이므로 이를 곱하면 $\sum_s d^{\pi_\theta}(s) = 1$ 이 된다. 즉 $d^{\pi_\theta}$ 는 진짜 확률 분포다.

이 세 번째 정식화가 중요한 이유는 Policy Gradient Theorem의 형태가 이것을 기반으로 가장 깔끔하게 표현되기 때문이다. “정책이 자주 방문하는 상태를 더 중요하게 가중한다”는 on-policy 학습의 철학이 $d^{\pi_\theta}$ 에 담겨 있다.

✎ 트레이드오프

Policy-based는 연속 행동과 확률적 최적 정책을 자연스럽게 다루지만, on-policy 특성상 sample efficiency가 낮다. Value-based는 off-policy replay로 sample을 재활용할 수 있어 이산 도메인(Atari 등)에서 빠르게 수렴한다. Gradient estimator의 분산 문제는 baseline·Actor-Critic 계열에서 완화된다.

정리

Value-based의 $\arg\max_a Q(s,a)$ 는 연속 행동 공간에서 계산 불가능하고, 확률적 최적 정책을 표현할 수 없다.
Stochastic policy는 선택이 아니라 일부 환경(경쟁, 부분 관측)에서 필수다.
Score function $\nabla_\theta \log \pi_\theta(a|s)$ 는 Policy Gradient 계산의 핵심이며, 기대값이 항상 0이라는 성질이 이후 분산 감소 기법의 기반이 된다.
$J(\theta)$ 의 세 정식화는 동등하며, discounted state distribution $d^{\pi_\theta}$ 는 on-policy 가중치를 수학적으로 정의한다.

다음 글에서는 $\nabla_\theta J(\theta)$ 를 Log-Derivative Trick으로 실제로 계산하는 과정, 즉 REINFORCE의 수학적 유도를 추적한다.

REF

Sutton, McAllester, Singh, Mansour · 2000 · Policy Gradient Methods for Reinforcement Learning with Function Approximation · NeurIPS