series · rl-foundations-deep-dive

📚 Rl Foundations Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.05.03 · 12 min Advanced Rl Foundations Deep Dive · 1

Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 2

Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Foundations Deep Dive · 3

최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 4

Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 6

Performance Difference Lemma의 닭과 달걀 문제부터 greedy 정책 손실의 수학적 bound까지, 현대 RL 이론이 공유하는 하나의 언어를 추적한다.

AI 2026.05.03 · 14 min Advanced Rl Foundations Deep Dive · 7

무한 상태 공간의 선형 근사부터 Deadly Triad의 발산, Linear MDP의 수렴 보장, Bisimulation 기반 상태 추상화까지 — 함수 근사의 수렴 조건을 추적한다.