Policy Gradient는 왜 직접 정책을 최적화하는가
Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.
- 01 Policy Gradient는 왜 직접 정책을 최적화하는가
- 02 REINFORCE는 왜 분산이 높은가
- 03 Policy Gradient Theorem의 세 가지 얼굴
- 04 Policy Gradient의 분산은 어떻게 줄이는가
- 05 GAE는 왜 λ 하나로 bias-variance를 제어할 수 있는가
- 06 Actor-Critic은 어떻게 진화했는가
- 07 NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유
강화학습 교과서는 Q-Learning으로 시작한다. 를 학습하고 로 정책을 뽑는다. 직관적이고 이론적 수렴 보장도 있다. 그런데 왜 Policy Gradient가 필요한가?
Value-based의 두 가지 벽
Value-based 방법이 무너지는 지점은 명확하다.
첫 번째는 연속 행동 공간이다. 로봇 팔 제어에서 행동은 의 토크 벡터다. 매 스텝마다
를 계산해야 하는데, 일반적인 에 대해 이는 non-convex 전역 최적화 문제다. 계산이 불가능하다.
두 번째는 확률적 최적 정책이다. Rock-Paper-Scissors를 생각하자. 상대방이 내 결정론적 정책을 알면 항상 이길 수 있다. 유일한 Nash equilibrium은 이다. Value-based의 greedy 추출은 항상 deterministic 정책을 만들므로, 이 균형에 도달할 수 없다.
Policy-based는 정책 자체를 파라미터화한다:
연속 공간에서는 Gaussian의 평균·분산을 학습하고, 확률적 최적이 필요한 환경에서는 그 분포를 직접 학습한다.
Stochasticity가 필수인 이유
“Policy-based는 stochastic policy를 학습할 수 있다”는 것은 단순한 기능 설명이 아니다. 때로는 deterministic policy로는 최적에 도달하는 것이 불가능하다.
Payoff matrix 이 Rock-Paper-Scissors의 대칭 구조를 가질 때, 유일한 Nash equilibrium은 이며 이는 완전히 혼합된(fully mixed) 전략이다.
Indifference condition: equilibrium에서 support의 모든 행동이 같은 기대 보상을 가져야 한다. 의 회전 대칭성에 의해 균형도 대칭이어야 하므로 . 에 대한 세 payoff가 동일하다는 조건을 풀면 이고, 대칭성에 의해 . 이때 .
부분 관측 환경(POMDP)에서도 마찬가지다. Sutton의 Aliased Gridworld처럼 두 다른 상태가 같은 관측을 만들 때, deterministic policy는 두 상태를 구분하지 못하고 한 경로만 탐색한다. Stochastic policy는 확률적 분기로 모든 경로를 커버한다.
Policy Parameterization: Score Function
Policy Gradient를 실제로 계산하려면 , 즉 score function을 명시적으로 구해야 한다.
이산 행동 (Softmax):
자신의 행동에 대한 gradient에서 모든 행동의 기대값을 뺀다. “평균보다 얼마나 선호되는가”를 측정하며, 이것이 나중에 advantage 함수와 연결된다.
연속 행동 (Gaussian):
를 로 파라미터화하는 것은 관습이 아니다. 제약을 자동으로 만족하고, 에서의 수치 불안정을 피한다.
Score function에는 중요한 성질이 있다:
기대값이 항상 0이다. 이 성질은 나중에 baseline을 빼도 gradient가 편향되지 않는다는 분산 감소 기법의 수학적 근거가 된다.
목적 함수 J(θ)의 세 얼굴
Policy의 성능 지표 는 세 가지 등가한 방식으로 쓸 수 있다.
세 번째 표현의 는 discounted state distribution이다:
인수는 단순한 정규화다. 이므로 이를 곱하면 이 된다. 즉 는 진짜 확률 분포다.
이 세 번째 정식화가 중요한 이유는 Policy Gradient Theorem의 형태가 이것을 기반으로 가장 깔끔하게 표현되기 때문이다. “정책이 자주 방문하는 상태를 더 중요하게 가중한다”는 on-policy 학습의 철학이 에 담겨 있다.
Policy-based는 연속 행동과 확률적 최적 정책을 자연스럽게 다루지만, on-policy 특성상 sample efficiency가 낮다. Value-based는 off-policy replay로 sample을 재활용할 수 있어 이산 도메인(Atari 등)에서 빠르게 수렴한다. Gradient estimator의 분산 문제는 baseline·Actor-Critic 계열에서 완화된다.
정리
- Value-based의 는 연속 행동 공간에서 계산 불가능하고, 확률적 최적 정책을 표현할 수 없다.
- Stochastic policy는 선택이 아니라 일부 환경(경쟁, 부분 관측)에서 필수다.
- Score function 는 Policy Gradient 계산의 핵심이며, 기대값이 항상 0이라는 성질이 이후 분산 감소 기법의 기반이 된다.
- 의 세 정식화는 동등하며, discounted state distribution 는 on-policy 가중치를 수학적으로 정의한다.
다음 글에서는 를 Log-Derivative Trick으로 실제로 계산하는 과정, 즉 REINFORCE의 수학적 유도를 추적한다.