AI 2026.05.03 · 10 min
Advanced Rl Foundations Deep Dive · 3
Bellman Optimality Equation은 왜 Value Iteration을 보증하는가
최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.
총 2개의 글
최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.
Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.