tag

#bellman

총 4개의 글

AI 2026.05.03 · 12 min Advanced Rl Foundations Deep Dive · 1

Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.

AI 2026.05.03 · 10 min Advanced Deep Rl Deep Dive · 3

Jensen's inequality에서 비롯된 maximization bias의 수학적 구조부터 Double DQN이 online/target network 분리로 이를 제거하는 원리까지, 편향의 근원을 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 4

Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.