AI 2026.05.03 · 10 min
Advanced Rl Theory Deep Dive · 4
Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
총 2개의 글
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
GP posterior로 불확실성을 정량화하고, acquisition function으로 탐색-활용 균형을 수학적으로 구현하는 BO 프레임워크의 설계 원리부터 고차원 확장과 수렴 보장까지.