AI 2026.05.03 · 12 min
Advanced Rl Foundations Deep Dive · 1
MDP는 왜 정확히 6개의 성분으로 정의되는가
Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.
총 1개의 글
Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.