← all posts
AI 2026.05.03 · 11 min read Advanced

Bellman Equation은 왜 작동하는가

Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.


RL의 모든 가치 함수 — Vπ(s)V^\pi(s), Qπ(s,a)Q^\pi(s, a), V(s)V^*(s) — 는 discounted return의 기댓값으로 정의된다. 그런데 이 합이 유한한지, 방정식의 해가 존재하는지, 반복 계산이 수렴하는지는 당연한 사실이 아니다. γ<1\gamma < 1이라는 제약 하나가 이 모든 질문에 동시에 답한다는 것을 어떻게 증명하는가?

Return이 유한하려면

시간 tt부터의 누적 보상을 정의하면:

Gt=k=0γkRt+k+1G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}

reward가 상수 R=1R = 1이라 가정할 때 γ=1\gamma = 1이면 Gt=G_t = \infty이고, γ=0.9\gamma = 0.9이면 Gt=10G_t = 10이다. 이 차이는 직관에 불과하다. 수학적으로 유한성을 보장하려면 bounded reward 가정 RtRmax|R_t| \leq R_{\max}γ[0,1)\gamma \in [0, 1)이 함께 필요하다.

정리 1 · Absolute Convergence of Discounted Return

RtRmax|R_t| \leq R_{\max}이고 γ[0,1)\gamma \in [0, 1)이면, 거의 모든 trajectory에 대해

GtRmax1γ<|G_t| \leq \frac{R_{\max}}{1 - \gamma} < \infty

▷ 증명

삼각 부등식과 기하급수 공식을 순서대로 적용한다.

Gtk=0γkRt+k+1Rmaxk=0γk=Rmax1γ<\left|G_t\right| \leq \sum_{k=0}^{\infty} \gamma^k |R_{t+k+1}| \leq R_{\max} \sum_{k=0}^{\infty} \gamma^k = \frac{R_{\max}}{1 - \gamma} < \infty \quad \square

GtG_t가 bounded random variable이므로 기댓값 E[Gt]\mathbb{E}[G_t]도 유한하다. 이것이 Vπ(s)=Eπ[GtSt=s]V^\pi(s) = \mathbb{E}_\pi[G_t \mid S_t = s]의 정의 자체가 의미를 갖는 이유다. γ=1\gamma = 1이고 RtRmin>0R_t \geq R_{\min} > 0이면 GtRmin=G_t \geq R_{\min} \cdot \infty = \infty이므로 infinite-horizon에서 return이 정의되지 않는다. Episodic MDP나 average-reward formulation은 이 문제를 우회하는 두 가지 선택지다.

가치 함수 사이의 관계

VπV^\piQπQ^\pi는 독립적으로 정의되지 않는다. 세 가지 관계식이 이 둘을 엮는다.

전확률 법칙: 정책 π\pi에서 상태 ss의 가치는 가능한 모든 행동의 가중 평균이다.

Vπ(s)=aπ(as)Qπ(s,a)V^\pi(s) = \sum_a \pi(a \mid s)\, Q^\pi(s, a)

한 걸음 전망: 행동 aa를 취한 뒤 다음 상태 ss'의 가치로 재귀한다.

Qπ(s,a)=R(s,a)+γsP(ss,a)Vπ(s)Q^\pi(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a)\, V^\pi(s')

두 식을 결합하면 Bellman expectation equation이 된다.

Vπ(s)=aπ(as)[R(s,a)+γsP(ss,a)Vπ(s)]V^\pi(s) = \sum_a \pi(a \mid s) \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a)\, V^\pi(s') \right]

이 방정식의 특징은 우변에 VπV^\pi가 다시 등장한다는 것이다. 무한 합의 정의에서 출발해 재귀 구조를 얻었다. 유도의 핵심은 tower property — E[Gt+1St=s]\mathbb{E}[G_{t+1} \mid S_t = s]St+1S_{t+1}로 한 번 더 조건부함으로써 Vπ(s)V^\pi(s')를 꺼낼 수 있다는 것 — 과 Markov 성질이다. 또한 reward가 bounded일 때 Vπ(s)Rmax/(1γ)|V^\pi(s)| \leq R_{\max}/(1-\gamma)가 성립하며, 이는 정리 1과 기댓값의 Jensen 부등식으로 직접 유도된다.

Advantage function Aπ(s,a)=Qπ(s,a)Vπ(s)A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)는 “평균 대비 이득”이다. 정의에 의해 aπ(as)Aπ(s,a)=0\sum_a \pi(a \mid s) A^\pi(s, a) = 0이 항상 성립한다. 이 단순한 뺄셈이 policy gradient 이론에서 분산을 낮추는 baseline correction의 근거가 된다.

Bellman Operator와 고정점

Bellman equation을 함수 공간의 언어로 재기술하면 일반적인 수렴 이론을 바로 끌어쓸 수 있다. bounded function들의 공간 B(S)B(\mathcal{S})에 sup-norm f=supsf(s)\|f\|_\infty = \sup_s |f(s)|을 부여하면 완비 거리공간이 된다.

정책 유도 보상 rπ(s)=aπ(as)R(s,a)r^\pi(s) = \sum_a \pi(a \mid s) R(s, a)와 전이 행렬 Pπ(ss)=aπ(as)P(ss,a)P^\pi(s' \mid s) = \sum_a \pi(a \mid s) P(s' \mid s, a)를 정의하면 Bellman operator를 간결하게 쓸 수 있다.

TπV=rπ+γPπVT^\pi V = r^\pi + \gamma P^\pi V

VπV^\pi는 이 연산자의 고정점 Vπ=TπVπV^\pi = T^\pi V^\pi다. TπT^\pi는 affine 연산자이므로 두 함수 사이의 거리 변화를 정확히 추적할 수 있다.

TπVTπV=γPπ(VV)γVV\|T^\pi V - T^\pi V'\|_\infty = \|\gamma P^\pi (V - V')\|_\infty \leq \gamma \|V - V'\|_\infty

마지막 부등식에서 PπP^\pi가 stochastic matrix(Pπ=1\|P^\pi\|_\infty = 1)임을 사용한다. γ<1\gamma < 1이므로 TπT^\piγ\gamma-contraction이다. Banach fixed point theorem에 의해 유일한 고정점이 존재하고, 임의의 초기값 V0V_0에서 시작한 반복 Vk+1=TπVkV_{k+1} = T^\pi V_k

VkVπγkV0Vπ\|V_k - V^\pi\|_\infty \leq \gamma^k \|V_0 - V^\pi\|_\infty

의 속도로 수렴한다.

고정점의 닫힌 형태

유한 MDP에서 고정점 방정식 Vπ=rπ+γPπVπV^\pi = r^\pi + \gamma P^\pi V^\pi를 정리하면 선형방정식이 된다.

(IγPπ)Vπ=rπ(I - \gamma P^\pi)\, V^\pi = r^\pi

이 방정식이 유일한 해를 가지려면 (IγPπ)(I - \gamma P^\pi)가 가역이어야 한다. stochastic matrix의 spectral radius ρ(Pπ)1\rho(P^\pi) \leq 1이고 γ<1\gamma < 1이므로 ρ(γPπ)γ<1\rho(\gamma P^\pi) \leq \gamma < 1이다. 따라서 (IγPπ)(I - \gamma P^\pi)의 모든 eigenvalue는 1γμ1 - \gamma\mu꼴인데, 1γμ1γ>0|1 - \gamma\mu| \geq 1 - \gamma > 0이므로 영이 되지 않는다. 가역성이 보장된다.

역행렬은 Neumann series로 표현된다.

Vπ=(IγPπ)1rπ=k=0(γPπ)krπV^\pi = (I - \gamma P^\pi)^{-1} r^\pi = \sum_{k=0}^{\infty} (\gamma P^\pi)^k r^\pi

전개하면 rπ+γPπrπ+γ2(Pπ)2rπ+r^\pi + \gamma P^\pi r^\pi + \gamma^2 (P^\pi)^2 r^\pi + \cdots인데, 이는 정확히 discounted return의 정의 — 첫 스텝 보상, 한 스텝 뒤의 기대 보상을 γ\gamma배 할인, 두 스텝 뒤를 γ2\gamma^2배 할인, … — 와 일치한다. 정의로 시작해 operator를 거쳐 닫힌 형태로 돌아오는 순환이 완성된다.

트레이드오프: γ의 역할

γ\gamma는 단순한 hyperparameter가 아니다. γ<1\gamma < 1은 (1) return의 절대 수렴, (2) 가치 함수의 유한성, (3) Bellman operator의 contraction, (4) 선형방정식의 가역성을 동시에 보장하는 수학적 조건이다. γ1\gamma \to 1로 키울수록 먼 미래를 더 많이 반영하지만, 수렴 속도가 O(γk)O(\gamma^k)로 느려지고 value iteration의 반복 횟수가 폭발한다. γ=0.99\gamma = 0.99에서 수렴에 필요한 반복이 γ=0.9\gamma = 0.9의 약 10배가 된다는 점은 실용적으로 중요하다.

정리

  • γ[0,1)\gamma \in [0, 1)와 bounded reward는 discounted return GtG_t가 절대수렴하는 충분조건이다.
  • VπV^\piQπQ^\pi는 전확률 법칙과 한 걸음 전망으로 연결되며, 결합하면 Bellman expectation equation이 된다.
  • Bellman operator TπT^\piγ\gamma-contraction이므로 유일한 고정점 VπV^\pi가 존재하고 반복 계산이 선형 수렴한다.
  • 닫힌 형태 Vπ=(IγPπ)1rπV^\pi = (I - \gamma P^\pi)^{-1} r^\pi는 Neumann series로 전개하면 discounted return의 정의와 정확히 일치한다.

다음 글에서는 이 Bellman operator에 “greedy max”를 추가한 optimality operator TT^*로 넘어가, VV^*의 존재성과 policy improvement의 단조성을 추적한다.

REF
Sutton, R. S. and Barto, A. G. · 2018 · Reinforcement Learning: An Introduction · MIT Press