AI 2026.05.03 · 12 min
Advanced Model Free Rl Deep Dive · 1
Model-Free RL의 네 가지 근본 질문
Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.
총 2개의 글
Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.
Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.