tag

#dynamic-programming

총 2개의 글

AI 2026.05.03 · 10 min Advanced Rl Foundations Deep Dive · 3

최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.