AI 2026.05.03 · 11 min
Advanced Rl Foundations Deep Dive · 4
Bellman operator는 왜 수렴이 보장되는가
Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.
총 1개의 글
Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.