Bellman Optimality Equation은 왜 Value Iteration을 보증하는가
최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.
- 01 MDP는 왜 정확히 6개의 성분으로 정의되는가
- 02 Bellman Equation은 왜 작동하는가
- 03 Bellman Optimality Equation은 왜 Value Iteration을 보증하는가
- 04 Bellman operator는 왜 수렴이 보장되는가
- 05 GPI — 모든 RL 알고리즘을 하나의 틀로 보는 법
- 06 RL 성능 분석의 언어 — State Distribution부터 근사 오차까지
- 07 RL에서 함수 근사는 왜 불안정한가
RL에서 “최적 정책을 찾는다”는 말은 구체적으로 무엇을 찾는다는 뜻인가? 단순히 보상을 많이 주는 정책을 탐색하는 게 아니라, 수학적으로 정의된 를 먼저 구하고 거기서 정책을 역산한다는 뜻이다. 이 역산 경로가 value-based RL의 핵심이며, 그 경로를 작동시키는 엔진이 Bellman Optimality Equation이다. 왜 이 방정식 하나가 Value Iteration의 수렴을 보증하는가?
최적 가치 함수의 정의
정책 마다 value function 가 다르다. 그 중 최선을 정의한다:
유한 MDP에서는 정책 수가 로 유한하므로 은 로 대체된다. 중요한 것은 이 최댓값이 어떤 단일 deterministic stationary 정책 에 의해 모든 state에서 동시에 달성된다는 점이다. 이를 Puterman(2005)은 다음과 같이 정리한다.
유한 state/action, discounted infinite-horizon MDP에서 어떤 deterministic stationary 정책 가 존재하여 가 모든 에서 성립한다.
State 에서 임의의 stochastic policy 의 value는 의 convex combination이다: . Convex combination의 최댓값은 극단점(extreme point)에서 달성되고, simplex의 극단점은 정확히 하나의 action에 확률 1을 부여하는 deterministic policy다. 따라서 이며, 이를 모든 state에서 동시에 선택하는 deterministic 정책 가 최적임을 보일 수 있다.
Bounded reward 와 조건 하에서 가 보장되므로, 는 bounded function space 안에 존재한다.
Bellman Optimality Equation
를 정의했다면, 그것이 만족하는 방정식을 유도할 수 있다. Bellman Expectation Equation이 정책 평균()을 취한다면, Optimality Equation은 최적 선택()을 취한다:
로 표현하면:
이 방정식이 단순한 재귀 정의가 아닌 이유는 가 이 방정식의 유일한 해이기 때문이다. 즉 방정식을 풀면 반드시 최적 가치 함수가 나온다. 유일성 증명은 다음 절의 수축 성질에서 따라온다.
Bellman Optimality Operator와 수축 성질
방정식을 연산자로 추상화한다. Bellman Optimality Operator 를 다음과 같이 정의한다:
가 affine(선형)인 것과 달리, 는 때문에 nonlinear다. 이 차이가 알고리즘 설계에 결정적 영향을 준다: 는 로 직접 풀 수 있지만, 는 fixed point iteration으로만 접근 가능하다.
임의의 에 대해 .
각 state 에서 Max-Lipschitz 보조정리를 적용한다: . 이를 이용하면
가 stochastic matrix()이므로 weighted average는 를 넘지 않는다. 따라서 . State 에 대해 supremum을 취하면 증명이 완료된다.
Banach Fixed Point Theorem에 의해, 인 contraction mapping은 완비거리공간에서 유일한 고정점을 가지며 임의의 초기값에서 반복 적용 시 그 고정점으로 수렴한다. 이므로 가 바로 그 유일한 고정점이다. Value Iteration은 를 반복하는 것이며, 수렴 속도는:
로 기하급수적이다.
Greedy Policy 추출과 트레이드오프
를 구했다면 최적 정책은 단 한 번의 연산으로 나온다:
여러 action이 동률이어도 성능은 동일하다. Tie-breaking은 성능이 아니라 구현 편의의 문제다.
가 정확할 때: greedy policy는 최적을 보장한다. 그러나 인 근사값에서 greedy를 수행하면 성능 손실이 까지 증폭될 수 있다. 에서 이 증폭 계수는 발산한다. deep RL에서 value network의 근사 오차가 불안정성을 유발하는 이유가 여기에 있다.
또한 의 nonlinearity는 Policy Evaluation()과 Policy Improvement(greedy) 사이의 비대칭을 만든다. Evaluation은 으로 정확히 풀리지만, Improvement는 모든 action을 비교해야 한다. Policy Iteration이 Value Iteration보다 적은 iteration으로 수렴하는 이유는 이 구조적 차이에서 나온다.
정리
- 는 유한 MDP에서 deterministic stationary policy에 의해 달성된다.
- Bellman Optimality Equation 는 의 고정점 방정식이며, 유일한 해다.
- 의 -contraction 성질이 Value Iteration의 수렴을 보증한다.
- Greedy policy 추출은 에서 1-step 연산이지만, 근사 오차는 배 증폭된다.
이 구조는 Q-learning과 Actor-Critic을 포함한 거의 모든 value-based RL 알고리즘의 이론적 토대다. Banach Fixed Point Theorem을 통한 수렴 증명은 다음 글에서 다룬다.