tag

#gpi

총 2개의 글

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 1

Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.