#bellman-operator

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 4

Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.