TRPO, PPO, Actor-Critic — 현대 RL 알고리즘들은 서로 다른 이름을 가지지만 동일한 수학적 언어로 쓰여 있다. 그 언어의 어휘는 state distribution, advantage function, surrogate objective 세 가지다. 이 언어를 모르면 알고리즘 코드를 읽을 수 있어도 왜 그렇게 설계됐는지 알 수 없다. 세 어휘는 어디서 오고, 어떻게 연결되는가?
첫 번째 어휘: State Distribution
정책 π를 고정하면 환경에서 어느 상태를 얼마나 자주 방문하는지가 결정된다. 이를 discounted state distribution으로 정의한다.
dπ(s):=(1−γ)t=0∑∞γtP(St=s∣π,ρ0)
(1−γ)는 정규화 상수다. ∑tγt=1/(1−γ)이므로 이를 곱하면 ∑sdπ(s)=1이 성립한다. 정책의 성능은 이 분포로 단순하게 표현된다.
J(π)=1−γ1Es∼dπ[rπ(s)]
여기서 rπ(s)=∑aπ(a∣s)r(s,a)다. dπ는 “어느 상태에 자주 방문하는가”를 담고 있으므로, 성능은 방문 분포에 대한 기대 보상의 가중합이다.
γ→1이면 discounted distribution은 stationary distribution d∞π에 가까워진다. Ergodic Markov chain (irreducible + aperiodic)에서는 초기 분포와 무관하게 dtπ→d∞π로 수렴한다. Perron-Frobenius 정리에 의해 고유값 1이 단순(simple)하면 stationary distribution이 유일하다.
두 번째 어휘: Performance Difference Lemma
두 정책 π와 π′의 성능 차이를 정확히 표현하면 어떻게 되는가? Kakade & Langford(2002)의 답은 다음과 같다.
J(π′)−J(π)=1−γ1Es∼dπ′,a∼π′(⋅∣s)[Aπ(s,a)]
정리 1
· Performance Difference Lemma
임의의 두 정책 π,π′와 무한 시간 할인 MDP (S,A,P,r,ρ0,γ)에 대해, 위 등식이 정확히 성립한다.
이 부등식이 trust region constraint DKL(π′,π)≤δ를 정당화한다. Lπ(π′)>C⋅δ이면 improvement가 보장된다. PPO의 clip 비율 [1−ϵ,1+ϵ]은 이 KL constraint의 first-order 근사다.
오차가 누적되면: 근사 오차와 정책 손실
실전에서는 Q∗를 정확히 알 수 없다. Q^가 ϵ-optimal이면 (∥Q^−Q∗∥∞≤ϵ), greedy 정책 π^의 손실은 얼마인가?
J(π∗)−J(π^)≤(1−γ)22ϵ
상수 1/(1−γ)2의 구조가 의미심장하다. 첫 번째 (1−γ)−1은 무한 시간 합산에서, 두 번째는 Bellman equation 반복에서 오차가 누적되는 효과다. γ→1이면 이 상수는 발산한다 — 장기적 미래를 중시할수록 작은 근사 오차도 큰 손실로 이어진다.
tabular 환경에서 ϵ-optimal Q를 학습하는 데 필요한 샘플 수는 Hoeffding 부등식으로 유도하면 O~(∣S∣∣A∣/ϵ2)다. 모델을 아는 planning의 O(∣S∣2∣A∣) 시간복잡도와 비교하면, learning은 정확도 ϵ에 대해 1/ϵ2의 추가 비용을 지불한다.
⚠ 트레이드오프
discount factor γ가 클수록 (1) 근사 오차의 증폭이 커지고 ((1−γ)−2 factor), (2) stationary distribution 수렴이 느려지며, (3) sample complexity가 증가한다. 반면 γ가 작으면 근시안적 정책이 된다. γ는 정확도와 장기성의 트레이드오프를 결정하는 핵심 하이퍼파라미터다.
정리
네 챕터를 관통하는 구조는 하나다 — 성능을 state distribution에 대한 기대값으로 표현하고, 그 분포를 제어하거나 근사함으로써 알고리즘을 설계한다.
dπ는 “어디를 방문하는가”를 담고, J(π)=1−γ1Es∼dπ[rπ(s)]로 성능을 결정한다.
PDL은 두 정책의 성능 차이를 advantage의 가중합으로 정확히 분해하지만, dπ′가 미지수라는 구조적 문제를 노출한다.
Surrogate objective는 dπ′→dπ로 이 문제를 우회하고, trust region은 그 근사 오차를 제어한다.
근사 Q-함수에서 오는 정책 손실은 (1−γ)−2로 증폭되며, tabular learning의 sample complexity는 O~(∣S∣∣A∣/ϵ2)다.
이 네 개념을 하나의 언어로 읽고 나면, TRPO/PPO의 수식이 임의적 선택이 아니라 필연임을 이해하게 된다.