AI 2026.05.03 · 12 min
Advanced Model Free Rl Deep Dive · 2
Monte Carlo RL은 왜 두 가지 방문 방식을 갖는가
First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.
총 1개의 글
First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.