AI 2026.05.03 · 10 min
Advanced Rl Theory Deep Dive · 4
Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
총 1개의 글
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.