AI 2026.05.03 · 12 min
Advanced Model Free Rl Deep Dive · 4
Q-Learning 수렴 증명의 통일된 구조
Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.
총 1개의 글
Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.