tag

#regret-bound

총 2개의 글

AI 2026.05.03 · 10 min Advanced Rl Theory Deep Dive · 4

MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.

AI 2026.04.28 · 10 min Advanced Bayesian Ml Deep Dive · 6

GP posterior로 불확실성을 정량화하고, acquisition function으로 탐색-활용 균형을 수학적으로 구현하는 BO 프레임워크의 설계 원리부터 고차원 확장과 수렴 보장까지.