AI 2026.05.03 · 11 min
Advanced Rl Theory Deep Dive · 3
Thompson Sampling은 왜 파라미터 없이도 최적인가
Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.
총 1개의 글
Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.