tag

#policy-iteration

총 2개의 글

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 2

First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.