AI 2026.05.03 · 11 min
Advanced Rl Foundations Deep Dive · 2
Bellman Equation은 왜 작동하는가
Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.
총 2개의 글
Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.
최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.