← all posts
AI 2026.05.03 · 11 min read Advanced

RL 성능 분석의 언어 — State Distribution부터 근사 오차까지

Performance Difference Lemma의 닭과 달걀 문제부터 greedy 정책 손실의 수학적 bound까지, 현대 RL 이론이 공유하는 하나의 언어를 추적한다.


TRPO, PPO, Actor-Critic — 현대 RL 알고리즘들은 서로 다른 이름을 가지지만 동일한 수학적 언어로 쓰여 있다. 그 언어의 어휘는 state distribution, advantage function, surrogate objective 세 가지다. 이 언어를 모르면 알고리즘 코드를 읽을 수 있어도 왜 그렇게 설계됐는지 알 수 없다. 세 어휘는 어디서 오고, 어떻게 연결되는가?

첫 번째 어휘: State Distribution

정책 π\pi를 고정하면 환경에서 어느 상태를 얼마나 자주 방문하는지가 결정된다. 이를 discounted state distribution으로 정의한다.

dπ(s):=(1γ)t=0γtP(St=sπ,ρ0)d^\pi(s) := (1-\gamma) \sum_{t=0}^{\infty} \gamma^t \mathbb{P}(S_t = s \mid \pi, \rho_0)

(1γ)(1-\gamma)는 정규화 상수다. tγt=1/(1γ)\sum_t \gamma^t = 1/(1-\gamma)이므로 이를 곱하면 sdπ(s)=1\sum_s d^\pi(s) = 1이 성립한다. 정책의 성능은 이 분포로 단순하게 표현된다.

J(π)=11γEsdπ[rπ(s)]J(\pi) = \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi}[r^\pi(s)]

여기서 rπ(s)=aπ(as)r(s,a)r^\pi(s) = \sum_a \pi(a \mid s) r(s, a)다. dπd^\pi는 “어느 상태에 자주 방문하는가”를 담고 있으므로, 성능은 방문 분포에 대한 기대 보상의 가중합이다.

γ1\gamma \to 1이면 discounted distribution은 stationary distribution dπd^\pi_\infty에 가까워진다. Ergodic Markov chain (irreducible + aperiodic)에서는 초기 분포와 무관하게 dtπdπd^\pi_t \to d^\pi_\infty로 수렴한다. Perron-Frobenius 정리에 의해 고유값 1이 단순(simple)하면 stationary distribution이 유일하다.

두 번째 어휘: Performance Difference Lemma

두 정책 π\piπ\pi'의 성능 차이를 정확히 표현하면 어떻게 되는가? Kakade & Langford(2002)의 답은 다음과 같다.

J(π)J(π)=11γEsdπ,aπ(s)[Aπ(s,a)]J(\pi') - J(\pi) = \frac{1}{1-\gamma}\, \mathbb{E}_{s \sim d^{\pi'}, a \sim \pi'(\cdot \mid s)}[A^\pi(s, a)]
정리 1 · Performance Difference Lemma

임의의 두 정책 π,π\pi, \pi'와 무한 시간 할인 MDP (S,A,P,r,ρ0,γ)(\mathcal{S}, \mathcal{A}, P, r, \rho_0, \gamma)에 대해, 위 등식이 정확히 성립한다.

▷ 증명

정책 π\pi'의 trajectory에서 telescoping identity를 적용한다.

t=0γt(γVπ(st+1)Vπ(st))=Vπ(s0)\sum_{t=0}^{\infty} \gamma^t \big(\gamma V^\pi(s_{t+1}) - V^\pi(s_t)\big) = -V^\pi(s_0)

양변에 τπ\tau \sim \pi'에 대한 기대값을 취하면 우변은 J(π)-J(\pi)다. 좌변에 r(st,at)r(s_t, a_t)를 더하고 빼면:

J(π)J(π)=Eτπ[t=0γt(r(st,at)+γVπ(st+1)Vπ(st))]J(\pi') - J(\pi) = \mathbb{E}_{\tau \sim \pi'}\left[\sum_{t=0}^{\infty} \gamma^t \big(r(s_t, a_t) + \gamma V^\pi(s_{t+1}) - V^\pi(s_t)\big)\right]

Bellman equation으로부터 괄호 안이 Aπ(st,at)A^\pi(s_t, a_t)임을 확인할 수 있다. Tower property를 적용하고 dπd^{\pi'}의 정의를 대입하면 결론을 얻는다. \square

이 공식에서 닭과 달걀 문제가 드러난다. 새 정책 π\pi'의 성능을 평가하려면 dπd^{\pi'}를 알아야 하고, dπd^{\pi'}를 알려면 π\pi'를 실행해야 하며, 실행하기 전에 어떤 π\pi'이 좋은지 알 수 없다.

세 번째 어휘: Advantage Function

PDL의 우변에 등장하는 Aπ(s,a)=Qπ(s,a)Vπ(s)A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)advantage function이다. 상태 ss에서 행동 aa를 취하는 것이 현재 정책의 평균 대비 얼마나 좋은지를 나타낸다.

On-policy advantage의 합

정책 π\pi에 대해 상태 ss에서 항상 aπ(as)Aπ(s,a)=0\sum_a \pi(a \mid s) A^\pi(s, a) = 0이 성립한다. advantage는 절대적 가치가 아니라 상대적 척도다.

Policy Gradient에서 advantage가 중요한 두 번째 이유는 분산 감소다. J(π)E[logπ(as)Qπ(s,a)]\nabla J(\pi) \propto \mathbb{E}[\nabla \log \pi(a \mid s) Q^\pi(s, a)]에서 Vπ(s)V^\pi(s)를 빼도 기대값이 변하지 않는다.

Ea[logπθ(as)Vπ(s)]=Vπ(s)θaπθ(as)=0\mathbb{E}_a[\nabla \log \pi_\theta(a \mid s) \cdot V^\pi(s)] = V^\pi(s) \nabla_\theta \sum_a \pi_\theta(a \mid s) = 0

aπ(as)=1\sum_a \pi(a \mid s) = 1의 미분이 0이기 때문이다. 따라서 b(s)=Vπ(s)b(s) = V^\pi(s)는 gradient 기대값을 보존하면서 분산을 줄이는 최적에 가까운 baseline이다.

닭과 달걀 문제의 해결: Surrogate Objective와 Trust Region

dπdπd^{\pi'} \to d^\pi로 근사하면 PDL의 우변을 계산 가능한 surrogate objective로 만들 수 있다.

Lπ(π):=11γEsdπ,aπ(s)[Aπ(s,a)]L_\pi(\pi') := \frac{1}{1-\gamma}\,\mathbb{E}_{s \sim d^{\pi}, a \sim \pi'(\cdot \mid s)}[A^\pi(s, a)]

이 근사의 오차는 두 분포의 거리에 비례한다. Schulman(2015)은 이를 KL divergence로 bound해 TRPO의 이론적 근거를 제시했다.

J(π)J(π)Lπ(π)2γ(1γ)2DKL(π,π)maxs,aAπ(s,a)J(\pi') - J(\pi) \geq L_\pi(\pi') - \frac{2\gamma}{(1-\gamma)^2} D_{\text{KL}}(\pi', \pi) \cdot \max_{s,a}|A^\pi(s, a)|

이 부등식이 trust region constraint DKL(π,π)δD_{\text{KL}}(\pi', \pi) \leq \delta를 정당화한다. Lπ(π)>CδL_\pi(\pi') > C \cdot \delta이면 improvement가 보장된다. PPO의 clip 비율 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon]은 이 KL constraint의 first-order 근사다.

오차가 누적되면: 근사 오차와 정책 손실

실전에서는 QQ^*를 정확히 알 수 없다. Q^\hat{Q}ϵ\epsilon-optimal이면 (Q^Qϵ\|\hat{Q} - Q^*\|_\infty \leq \epsilon), greedy 정책 π^\hat{\pi}의 손실은 얼마인가?

J(π)J(π^)2ϵ(1γ)2J(\pi^*) - J(\hat{\pi}) \leq \frac{2\epsilon}{(1-\gamma)^2}

상수 1/(1γ)21/(1-\gamma)^2의 구조가 의미심장하다. 첫 번째 (1γ)1(1-\gamma)^{-1}은 무한 시간 합산에서, 두 번째는 Bellman equation 반복에서 오차가 누적되는 효과다. γ1\gamma \to 1이면 이 상수는 발산한다 — 장기적 미래를 중시할수록 작은 근사 오차도 큰 손실로 이어진다.

tabular 환경에서 ϵ\epsilon-optimal QQ를 학습하는 데 필요한 샘플 수는 Hoeffding 부등식으로 유도하면 O~(SA/ϵ2)\tilde{O}(|\mathcal{S}||\mathcal{A}|/\epsilon^2)다. 모델을 아는 planning의 O(S2A)O(|\mathcal{S}|^2|\mathcal{A}|) 시간복잡도와 비교하면, learning은 정확도 ϵ\epsilon에 대해 1/ϵ21/\epsilon^2의 추가 비용을 지불한다.

트레이드오프

discount factor γ\gamma가 클수록 (1) 근사 오차의 증폭이 커지고 ((1γ)2(1-\gamma)^{-2} factor), (2) stationary distribution 수렴이 느려지며, (3) sample complexity가 증가한다. 반면 γ\gamma가 작으면 근시안적 정책이 된다. γ\gamma는 정확도와 장기성의 트레이드오프를 결정하는 핵심 하이퍼파라미터다.

정리

네 챕터를 관통하는 구조는 하나다 — 성능을 state distribution에 대한 기대값으로 표현하고, 그 분포를 제어하거나 근사함으로써 알고리즘을 설계한다.

  • dπd^\pi는 “어디를 방문하는가”를 담고, J(π)=11γEsdπ[rπ(s)]J(\pi) = \frac{1}{1-\gamma}\mathbb{E}_{s \sim d^\pi}[r^\pi(s)]로 성능을 결정한다.
  • PDL은 두 정책의 성능 차이를 advantage의 가중합으로 정확히 분해하지만, dπd^{\pi'}가 미지수라는 구조적 문제를 노출한다.
  • Surrogate objective는 dπdπd^{\pi'} \to d^\pi로 이 문제를 우회하고, trust region은 그 근사 오차를 제어한다.
  • 근사 Q-함수에서 오는 정책 손실은 (1γ)2(1-\gamma)^{-2}로 증폭되며, tabular learning의 sample complexity는 O~(SA/ϵ2)\tilde{O}(|\mathcal{S}||\mathcal{A}|/\epsilon^2)다.

이 네 개념을 하나의 언어로 읽고 나면, TRPO/PPO의 수식이 임의적 선택이 아니라 필연임을 이해하게 된다.

REF
Kakade, S. and Langford, J. · 2002 · Approximately Optimal Approximate Reinforcement Learning · ICML
REF
Schulman, J. et al. · 2015 · Trust Region Policy Optimization · ICML