RL의 모든 가치 함수 — Vπ(s), Qπ(s,a), V∗(s) — 는 discounted return의 기댓값으로 정의된다. 그런데 이 합이 유한한지, 방정식의 해가 존재하는지, 반복 계산이 수렴하는지는 당연한 사실이 아니다. γ<1이라는 제약 하나가 이 모든 질문에 동시에 답한다는 것을 어떻게 증명하는가?
Return이 유한하려면
시간 t부터의 누적 보상을 정의하면:
Gt=∑k=0∞γkRt+k+1
reward가 상수 R=1이라 가정할 때 γ=1이면 Gt=∞이고, γ=0.9이면 Gt=10이다. 이 차이는 직관에 불과하다. 수학적으로 유한성을 보장하려면 bounded reward 가정 ∣Rt∣≤Rmax과 γ∈[0,1)이 함께 필요하다.
Gt가 bounded random variable이므로 기댓값 E[Gt]도 유한하다. 이것이 Vπ(s)=Eπ[Gt∣St=s]의 정의 자체가 의미를 갖는 이유다. γ=1이고 Rt≥Rmin>0이면 Gt≥Rmin⋅∞=∞이므로 infinite-horizon에서 return이 정의되지 않는다. Episodic MDP나 average-reward formulation은 이 문제를 우회하는 두 가지 선택지다.
가치 함수 사이의 관계
Vπ와 Qπ는 독립적으로 정의되지 않는다. 세 가지 관계식이 이 둘을 엮는다.
전확률 법칙: 정책 π에서 상태 s의 가치는 가능한 모든 행동의 가중 평균이다.
Vπ(s)=∑aπ(a∣s)Qπ(s,a)
한 걸음 전망: 행동 a를 취한 뒤 다음 상태 s′의 가치로 재귀한다.
Qπ(s,a)=R(s,a)+γ∑s′P(s′∣s,a)Vπ(s′)
두 식을 결합하면 Bellman expectation equation이 된다.
Vπ(s)=∑aπ(a∣s)[R(s,a)+γ∑s′P(s′∣s,a)Vπ(s′)]
이 방정식의 특징은 우변에 Vπ가 다시 등장한다는 것이다. 무한 합의 정의에서 출발해 재귀 구조를 얻었다. 유도의 핵심은 tower property — E[Gt+1∣St=s]를 St+1로 한 번 더 조건부함으로써 Vπ(s′)를 꺼낼 수 있다는 것 — 과 Markov 성질이다. 또한 reward가 bounded일 때 ∣Vπ(s)∣≤Rmax/(1−γ)가 성립하며, 이는 정리 1과 기댓값의 Jensen 부등식으로 직접 유도된다.
Advantage functionAπ(s,a)=Qπ(s,a)−Vπ(s)는 “평균 대비 이득”이다. 정의에 의해 ∑aπ(a∣s)Aπ(s,a)=0이 항상 성립한다. 이 단순한 뺄셈이 policy gradient 이론에서 분산을 낮추는 baseline correction의 근거가 된다.
Bellman Operator와 고정점
Bellman equation을 함수 공간의 언어로 재기술하면 일반적인 수렴 이론을 바로 끌어쓸 수 있다. bounded function들의 공간 B(S)에 sup-norm ∥f∥∞=sups∣f(s)∣을 부여하면 완비 거리공간이 된다.
정책 유도 보상 rπ(s)=∑aπ(a∣s)R(s,a)와 전이 행렬 Pπ(s′∣s)=∑aπ(a∣s)P(s′∣s,a)를 정의하면 Bellman operator를 간결하게 쓸 수 있다.
TπV=rπ+γPπV
Vπ는 이 연산자의 고정점Vπ=TπVπ다. Tπ는 affine 연산자이므로 두 함수 사이의 거리 변화를 정확히 추적할 수 있다.
∥TπV−TπV′∥∞=∥γPπ(V−V′)∥∞≤γ∥V−V′∥∞
마지막 부등식에서 Pπ가 stochastic matrix(∥Pπ∥∞=1)임을 사용한다. γ<1이므로 Tπ는 γ-contraction이다. Banach fixed point theorem에 의해 유일한 고정점이 존재하고, 임의의 초기값 V0에서 시작한 반복 Vk+1=TπVk는
∥Vk−Vπ∥∞≤γk∥V0−Vπ∥∞
의 속도로 수렴한다.
고정점의 닫힌 형태
유한 MDP에서 고정점 방정식 Vπ=rπ+γPπVπ를 정리하면 선형방정식이 된다.
(I−γPπ)Vπ=rπ
이 방정식이 유일한 해를 가지려면 (I−γPπ)가 가역이어야 한다. stochastic matrix의 spectral radius ρ(Pπ)≤1이고 γ<1이므로 ρ(γPπ)≤γ<1이다. 따라서 (I−γPπ)의 모든 eigenvalue는 1−γμ꼴인데, ∣1−γμ∣≥1−γ>0이므로 영이 되지 않는다. 가역성이 보장된다.
역행렬은 Neumann series로 표현된다.
Vπ=(I−γPπ)−1rπ=∑k=0∞(γPπ)krπ
전개하면 rπ+γPπrπ+γ2(Pπ)2rπ+⋯인데, 이는 정확히 discounted return의 정의 — 첫 스텝 보상, 한 스텝 뒤의 기대 보상을 γ배 할인, 두 스텝 뒤를 γ2배 할인, … — 와 일치한다. 정의로 시작해 operator를 거쳐 닫힌 형태로 돌아오는 순환이 완성된다.
✎ 트레이드오프: γ의 역할
γ는 단순한 hyperparameter가 아니다. γ<1은 (1) return의 절대 수렴, (2) 가치 함수의 유한성, (3) Bellman operator의 contraction, (4) 선형방정식의 가역성을 동시에 보장하는 수학적 조건이다. γ→1로 키울수록 먼 미래를 더 많이 반영하지만, 수렴 속도가 O(γk)로 느려지고 value iteration의 반복 횟수가 폭발한다. γ=0.99에서 수렴에 필요한 반복이 γ=0.9의 약 10배가 된다는 점은 실용적으로 중요하다.