AI 2026.05.03 · 12 min
Advanced Model Free Rl Deep Dive · 2
Monte Carlo RL은 왜 두 가지 방문 방식을 갖는가
First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.
총 2개의 글
First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.
확률수렴·거의확실수렴·분포수렴의 정확한 의미부터 대수의 법칙과 중심극한정리의 증명, Monte Carlo의 차원 무관 수렴률까지 추적한다.