REINFORCE는 unbiased gradient estimator다. 그러나 episode마다 return Gt가 극단적으로 흔들리며, 이 variance가 학습을 방해한다. 이 문제를 해결하는 도구들 — baseline subtraction, optimal baseline, Actor-Critic bootstrapping, entropy regularization — 은 각각 독립적인 트릭처럼 보이지만, 모두 하나의 통계적 원리에서 나온다. 왜 b(s)를 빼도 gradient의 기대값이 변하지 않는가?
Score function의 zero-mean 성질
모든 variance reduction 기법의 뿌리는 score function의 성질에 있다. 정책 π(a∣s)를 a에 대해 적분하면 1이므로, 양변을 θ로 미분하면:
∫a∇θπ(a∣s)da=0
따라서:
Ea∼π[∇θlogπ(a∣s)]=0
Score function은 policy π 하에서 평균이 0이다. 이 성질이 baseline subtraction을 가능하게 한다.
따름 정리: E[∇logπ⋅(Gt−b(s))]=E[∇logπ⋅Gt]. Baseline이 있든 없든 gradient의 기대값은 동일하다.
반면 b(s,a) (action-dependent baseline)은 ∇logπ와 상관될 수 있어 이 등식이 깨진다. b(s,a)=Gt⋅1a=a∗로 놓으면 두 번째 항이 ∇logπ(a∗∣s)⋅Gt=0이 되어 즉각 bias가 발생한다.
Variance를 최소화하는 baseline
Baseline이 unbiased임을 알았다. 그렇다면 어떤 baseline을 선택해야 variance가 가장 작은가?
이것은 통계학의 control variate 문제다. 추정 대상 f=∇logπ⋅G와 보조 변수 g=∇logπ (zero-mean)에 대해, f−c⋅g의 분산을 최소화하는 c∗는:
c∗=Var[g]Cov(f,g)
On-policy sampling에서 E[∇logπ]=0이므로 Cov(f,g)=E[(∇logπ)2G]. 따라서 optimal baseline은:
b∗(s)=E[(∇logπ)2∣s]E[(∇logπ)2G∣s]
Variance reduction의 크기는 상관계수로 결정된다:
Var[∇logπ⋅(G−b∗)]=Var[∇logπ⋅G]⋅(1−ρ2)
ρ=Corr(∇logπ,G)가 1에 가까울수록 분산이 거의 0으로 수렴한다. 실전에서 ρ≈0.9이면 80% 이상의 variance 감소가 가능하다.
Actor-Critic: bootstrapping으로 분산을 압축하다
Value function Vπ(s)를 직접 학습해 baseline으로 쓰는 것이 Actor-Critic 구조다. Critic이 advantage를 추정하고, Actor가 그것으로 policy를 업데이트한다.
TD advantage estimator:
A^tTD=rt+γVϕ(st+1)−Vϕ(st)
이것의 variance가 얼마나 작은지 보자. MC return의 분산은 T-step에 걸친 noise의 누적이다:
Var[A^MC]≈1−γ2σr2
반면 1-step TD error의 분산은 단 하나의 reward noise에 불과하다:
Var[A^TD]≈σr2
γ=0.99, T=1000이면 100배 이상의 분산 감소다.
⚠ Bootstrapping bias
TD advantage는 Vϕ가 부정확하면 bias가 생긴다. Actor update의 bias는 O(∥ϵϕ∥) — critic 오차에 비례한다. 초기 학습에서 critic이 불안정할 때 TD의 bias가 MC의 variance보다 클 수 있다. GAE(λ)는 이 trade-off를 λ∈[0,1]로 연속적으로 보간한다.
Konda & Tsitsiklis (2000)의 two-timescale convergence 정리는 critic이 actor보다 빠른 학습률을 가질 때 (βk>αk) 수렴을 보장한다. Critic이 먼저 현재 policy의 Vπ에 수렴하고, actor가 그것을 정확한 advantage로 사용하는 구조다.
Entropy regularization: 탐험을 목적함수 안에 넣다
Actor-Critic이 분산 문제를 해결해도, policy collapse가 남아있다. 학습이 진행되면서 π(a∗∣s)→1로 수렴해 다른 action을 더 이상 시도하지 않는다. 이는 local optimum에 갇히는 경로다.
Entropy bonus는 이 문제를 목적함수 수준에서 해결한다:
Jreg(θ)=J(θ)+β⋅H(πθ),H(π)=−a∑π(a∣s)logπ(a∣s)
Entropy gradient를 계산하면:
∇θH=−Ea∼π[(logπθ(a∣s)+1)∇θlogπθ(a∣s)]
따라서 entropy-regularized PG theorem은:
∇Jreg=E[(∇logπ)⋅(Aπ+β(logπ+1))]
logπ(a∣s)는 낮은 확률의 action에서 크게 음수이므로, entropy term은 잘 선택되지 않는 action에도 gradient를 부여한다. Policy가 uniform으로 당겨지는 힘이 β로 조절된다.
최대 엔트로피 RL에서 optimal policy의 형태는 Boltzmann distribution이다 (Ziebart et al. 2008):
π∗(a∣s)∝exp(αQ∗(s,a))
높은 Q action은 높은 확률, 낮은 Q action도 양의 확률을 유지한다. SAC(Soft Actor-Critic)는 이 프레임워크를 temperature α까지 학습 가능하게 확장했다.
트레이드오프
✎ 트레이드오프 요약
기법
Variance
Bias
구현 복잡도
No baseline (REINFORCE)
매우 높음
없음
최소
State-dependent baseline b(s)
낮음
없음
낮음
TD bootstrapping (Actor-Critic)
매우 낮음
O(∥ϵϕ∥)
중간
Action-dependent baseline (Stein)
더 낮음
없음 (Stein 보정 시)
높음 (Hessian 필요)
Entropy regularization
—
간접 bias
낮음
Stein control variate는 이론적으로 우월하지만 Hessian 연산 비용 때문에 실전에서 거의 쓰이지 않는다. State-dependent V(s)가 대부분의 경우 충분하다.
정리
Score function의 zero-mean 성질이 모든 baseline subtraction의 수학적 기반이다.
Optimal baseline은 b∗(s)=E[(∇logπ)2G∣s]/E[(∇logπ)2∣s] — 이것이 control variate의 optimal weight다.
TD bootstrapping은 variance를 100배 이상 줄이지만, critic 오차만큼의 bias를 도입한다.
Entropy regularization은 policy collapse를 막고, 최대 엔트로피 최적 정책을 Boltzmann 분포로 특성화한다.
분산 감소의 네 챕터는 별개의 트릭이 아니다 — 모두 “signal을 noise에서 분리하라”는 하나의 요청에 대한 다른 답이다.