REINFORCE의 gradient ∇logπ(a∣s)⋅Gt는 이론적으로 올바르지만, return Gt의 분산이 너무 크다. baseline V(s)를 빼도 분산의 대부분은 남는다. 그렇다면 1-step TD residual δtV를 쓰면 어떨까? 분산은 줄지만, V가 부정확한 만큼 bias가 생긴다. 이 tension을 단 하나의 파라미터로 제어하는 것이 Generalized Advantage Estimation(GAE)이다 — 어떻게 가능한가?
TD Residual과 n-step Advantage
1-step TD residual은 다음과 같이 정의된다.
δtV:=rt+γV(st+1)−V(st)
V=Vπ이면 δtV는 advantage Aπ(st)의 불편 추정량이 된다. 하지만 학습 중에는 V가 항상 부정확하므로 bias가 개입한다. 1-step만 보는 대신 n-step까지 확장하면 다음이 성립한다.
재귀 형 A^t=δt+γλA^t+1은 단순히 수학적 등가물이 아니다 — 이것이 O(T) 구현의 근거다.
λ의 두 극한과 bias-variance 제어
따름정리 2
· 극한 케이스
λ=0⇒A^t=δtV(1-step TD, biased, low variance)λ=1⇒A^t=Gt−V(st)(Monte Carlo, unbiased, high variance)
λ=1의 경우 ∑l=0∞γlδt+lV에서 telescoping이 일어나 Gt−V(st)가 된다.
λ가 클수록 분산이 커지는 이유는 i.i.d. reward를 가정하면 정량적으로 확인된다. reward 분산을 σr2라 하면,
Var[δt]≈σr2,Var[Gt]≈1−γ2σr2
즉, Monte Carlo 분산은 1-step TD 분산의 약 1−γ1배다. γ=0.99이면 이 비율이 50배를 넘는다.
✎ 트레이드오프
λ는 bias-variance를 연속적으로 제어한다. V가 부정확한 훈련 초기에는 λ를 낮춰 bias 누적을 억제하고, V가 안정된 이후에는 λ를 높여 분산을 감수하면서 불편성을 확보하는 전략이 실전에서 권장된다. Schulman et al. (2016)은 연속 제어 환경 대부분에서 λ = 0.95가 sweet spot임을 보였다.
역순 O(T) 구현
재귀 형 A^t=δt+γλA^t+1을 앞에서부터 계산하면 A^0를 구하기 위해 A^1,A^2,…를 모두 먼저 알아야 하므로 O(T2)이 된다. 뒤에서부터 계산하면 각 step이 O(1)이므로 전체 O(T)로 끝난다.
episode 경계(dones[t] = 1)에서 gae를 0으로 reset하지 않으면 서로 다른 episode 간에 spurious correlation이 발생한다. terminal state에서 V(terminal)=0이므로 δT−1=rT−1−V(sT−1)로 자연스럽게 처리된다.
정리
TD residual δtV는 분산을 극적으로 줄이지만 V 오차만큼 bias를 가진다.
n-step advantage들의 지수적 가중 평균이 GAE이고, 이는 ∑l=0∞(γλ)lδt+lV와 재귀 형 δt+γλA^t+1로 동치다.
λ = 0은 1-step TD(biased, low variance), λ = 1은 Monte Carlo(unbiased, high variance)이며, λ ∈ (0, 1)은 이 spectrum을 연속적으로 보간한다.
역순 반복으로 O(T) 계산이 가능하고, episode 경계에서 gae를 반드시 reset해야 한다.
수식 한 줄 (1−λ)∑λn−1A^t(n) 뒤에는, “어떤 n도 완벽하지 않다면 모든 n을 함께 쓰자”는 구체적인 엔지니어링 판단이 있다.