Value Iteration은 왜 수렴하는가? “Bellman equation을 반복하면 된다”는 설명은 절차를 기술할 뿐, 이유를 말하지 않는다. 수렴 보장의 뿌리는 1922년 Banach가 증명한 고정점 정리에 있고, RL의 모든 핵심 연산자 — Tπ와 T∗ — 는 그 정리의 조건을 만족하도록 설계되어 있다. 왜 하필 sup-norm인가? 왜 γ<1 이어야 하는가?
완비 거리공간과 수축 사상
Banach Fixed Point Theorem의 무대는 완비 거리공간 (X,d) 이다. 완비성은 “Cauchy 수열이 반드시 공간 안에서 수렴한다”는 조건으로, 유리수 Q 처럼 극한이 공간 밖으로 빠져나가는 불완비 공간에서는 정리가 성립하지 않는다.
RL에서 이 역할을 하는 공간은 bounded function space B(S) 로, sup-norm ∥V∥∞=sups∣V(s)∣ 을 거리로 갖는 Banach space다. 이 norm은 “모든 state에서 동시에” 거리를 측정하므로, value function 전체의 균일 수렴을 다룰 수 있다.
정리 1
· Banach Fixed Point Theorem (1922)
완비 거리공간 (X,d) 에서 γ-contraction T:X→X (γ<1) 가 주어지면:
유일한 고정점 x∗∈X 가 존재한다: T(x∗)=x∗
임의 초기값 x0에서 iteration xk+1=T(xk) 는 x∗로 수렴한다
A Priori bound: d(xk,x∗)≤γk⋅d(x0,x∗)
A Posteriori bound: d(xk,x∗)≤1−γγd(xk,xk−1)
▷ 증명
핵심은 (xk)가 Cauchy 수열임을 보이는 것이다. 삼각부등식으로 n>m에 대해
d(xn,xm)≤d(x1,x0)∑j=mn−1γj≤1−γγmd(x1,x0)
m→∞ 이면 우변이 0으로 수렴하므로 Cauchy 수열. 완비성에 의해 극한 x∗가 존재하고, T의 연속성으로부터 T(x∗)=x∗. 유일성은 두 고정점 x∗,y∗에 대해 d(x∗,y∗)=d(T(x∗),T(y∗))≤γ⋅d(x∗,y∗), 즉 (1−γ)d(x∗,y∗)≤0에서 따른다. □
반대 방향도 대칭적으로 성립하므로 절댓값 부등식이 따른다. 모든 s에 대해 성립하므로 sup를 취하면 결론을 얻는다. □
∎
T∗에서 fa(s)=r(s,a)+γ∑s′P(s′∣s,a)V(s′)로 정의하면, 각 action a에 대해 ∥fa−ga∥∞≤γ∥V−V′∥∞이고, Max-Lipschitz 보조정리로부터
∥T∗V−T∗V′∥∞≤γ∥V−V′∥∞
즉, nonlinear임에도 T∗는 γ-contraction이다.
✎ 왜 sup-norm인가
L2 norm에서는 stochastic matrix P가 ∥Px∥2≤∥x∥2를 보장하지 않는다. P의 최대 특이값이 1보다 클 수 있기 때문이다. Sup-norm은 row-stochastic의 구조 (행 합 = 1) 를 정확히 포착하므로, RL의 contraction 분석은 sup-norm 위에서만 깔끔하게 성립한다.
정지 기준의 유도
Banach 정리의 A Posteriori bound는 알고리즘에 직접 쓸 수 있는 정지 기준을 준다.
∥Vk−V∗∥∞≤1−γγ∥Vk−Vk−1∥∞
이 부등식은 telescoping sum으로 증명된다: Vk−V∗=∑j=k∞(Vj−Vj+1) 이고, contraction에 의해 ∥Vj−Vj+1∥≤γj−k+1∥Vk−Vk−1∥이므로, 무한 합이 1−γγ∥Vk−Vk−1∥로 bound된다.
원하는 정확도 ϵ에 도달하는 실용적 기준:
∥Vk−Vk−1∥∞<ϵ⋅γ1−γ⟹∥Vk−V∗∥∞<ϵ
필요 iteration 수는
k≈−logγlog(1/ϵ)≈1−γlog(1/ϵ)
로, γ=0.9이면 ϵ=10−6 달성에 약 130회, γ=0.99이면 약 1380회가 필요하다.
트레이드오프 — γ와 수렴 속도의 긴장
γ가 1에 가까워질수록 무엇이 약해지는가?
⚠ γ → 1 에서의 한계
γ=1이면 ∥T∗V−T∗V′∥∞≤1⋅∥V−V′∥∞, 즉 nonexpansive일 뿐 contraction이 아니다. Banach 정리의 조건이 깨지고, Value Iteration의 수렴이 보장되지 않는다.
필요 iteration 수 k∼log(1/ϵ)/(1−γ) 는 γ→1−일 때 발산한다. 이 한계는 세 가지 문제 설정을 나누는 경계이기도 하다:
설정
γ
수렴
비고
Discounted
<1
Linear (γk)
Banach 정리 직접 적용
Episodic
=1, finite T
유한 단계
terminal state에서 종료
Average-reward
=1, continuing
Blackwell optimal
differential value function W(s) 필요
Average-reward 설정에서는 단일 scalar ρ∗ (장기 평균 보상) 가 목표가 되고, Bellman 방정식이
ρ∗+W∗(s)=maxa[r(s,a)+∑s′P(s′∣s,a)W∗(s′)]
으로 바뀐다. W(s)는 각 state의 “상대적 가치”로, discounted value function의 γ→1 극한에 해당한다.
정리
Banach Fixed Point Theorem은 완비 거리공간 + γ-contraction의 조합에서 유일 고정점의 존재와 선형 수렴을 보장한다.
Tπ는 row-stochastic matrix의 성질로, T∗는 Max-Lipschitz 보조정리로 각각 γ-contraction임이 증명된다.
A Posteriori bound 1−γγ∥Vk−Vk−1∥∞는 V∗를 모르고도 수렴을 판단할 수 있는 실용적 정지 기준을 제공한다.
γ<1은 단순 관습이 아니라 contraction 조건의 핵심이며, γ→1에서 수렴 보장이 무너지는 지점이 Average-reward 설정으로의 전환을 동기화한다.
수식 한 줄 뒤에는 “Cauchy 수열이 공간 밖으로 빠져나가지 않도록”이라는 구체적인 완비성 요구가 숨어 있다.