Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
- 01 Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
- 02 UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
- 03 Thompson Sampling은 왜 파라미터 없이도 최적인가
- 04 Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
- 05 PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
- 06 MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB
- 07 Best Arm Identification는 어떻게 최적에 수렴하는가
Contextual Bandit, Linear Bandit, GP-UCB — 이 세 알고리즘은 겉으로 다르게 보인다. 하지만 안을 들여다보면 하나의 질문을 반복한다: “지금 내가 모르는 것을 어떻게 수치화하고, 그것을 탐색 전략에 어떻게 끼워 넣는가?” 불확실성을 측정하는 방법이 달라질 뿐, 원리는 같다.
MAB를 넘어서: context가 바꾸는 것
Multi-Armed Bandit에서 최적 arm은 고정이다. . 하지만 현실에서 같은 뉴스 기사도 사용자에 따라 클릭률이 다르고, 같은 약도 환자의 특성에 따라 효과가 다르다.
Contextual Bandit은 이 구조를 수식화한다. 매 step 마다 context 를 관측한 후 action 를 선택하고, reward 를 받는다. 최적 action은 이제 context마다 다르다:
Regret의 정의도 달라진다.
Context가 고정되면 ( 모든 ) 이는 그대로 MAB regret으로 환원된다. Context가 변할 때 per-context optimal arm과의 차이를 누적한다는 점이 핵심이다.
선형 모델: 무한 action space를 차원으로 압축
Context space가 연속이면 쌍은 무한히 많아진다. 각 쌍마다 별도로 학습하는 건 불가능하다. Linear Bandit은 이 문제를 feature map으로 해결한다:
는 모든 arm에 공유된다. arm 1에서 얻은 데이터가 arm 2의 추정에도 기여한다. 이것이 선형 모델의 핵심 이득 — transfer다.
Least squares로 를 추정한다:
는 Gram matrix다. arm을 다양하게 선택할수록 의 행렬식이 커지고, 이 작아진다. 즉, 불확실성이 줄어든다.
OFUL: confidence ellipsoid가 탐색을 대체한다
Linear Bandit에서 탐색 전략의 핵심은 어떤 arm을 골랐을 때 에 대한 정보를 가장 많이 얻는가다. OFUL(Optimism in Face of Uncertainty for Linear bandits, Abbasi-Yadkori et al. 2011)은 이를 confidence ellipsoid로 구현한다.
Self-normalized martingale concentration inequality로부터, 높은 확률로 다음이 성립한다:
이는 가 ellipsoid 안에 있음을 보장한다. OFUL은 이 ellipsoid 안에서 가장 낙관적인 를 골라 UCB를 계산한다:
두 번째 항 이 탐색 보너스다. 는 arm 의 feature가 현재 불확실성 위에서 얼마나 “새로운” 정보인지를 측정한다. 이미 많이 본 방향이면 작고, 새로운 방향이면 크다.
Feature norm , parameter norm , -sub-Gaussian noise 하에서 OFUL은 다음을 달성한다:
Arm count 에 무관하다.
증명의 뼈대는 세 단계다.
1. Optimism: Confidence ellipsoid가 를 포함하므로, UCB w.h.p.
2. Regret decomposition + Cauchy-Schwarz: 각 step의 instantaneous regret을
로 bound한다. Ellipsoid bound 와 Cauchy-Schwarz 를 조합한 결과다.
3. Elliptical Potential Lemma: 핵심 도구.
이로부터 . 최종적으로 .
GP-UCB: kernel이 ellipsoid를 대체한다
Feature map 를 직접 설계하지 않고 함수 자체를 학습하고 싶다면? GP-UCB(Srinivas et al. 2010)는 Gaussian Process posterior를 confidence 측도로 사용한다.
탐색 전략은 구조적으로 OFUL과 같다:
OFUL에서 $\hat\theta_t^\top \phi_a$가 exploitation이고 $\beta_t \|\phi_a\|_{V^{-1}}$이 exploration이었다면, GP-UCB에서는 와 가 그 자리를 차지한다. 형태가 동일하다.
Regret bound도 같은 구조다:
는 information gain이다:
OFUL의 가 “feature dimension이 regret을 지배한다”는 메시지였다면, GP-UCB의 는 “kernel의 복잡도가 regret을 지배한다”는 메시지다. RBF kernel에서 이므로, dimension이 늘어날수록 regret이 급격히 나빠진다 — curse of dimensionality의 kernel 버전이다.
Linear Bandit은 feature map 가 고정되어 있어야 한다. 잘못 설계된 feature는 regret을 키운다. GP-UCB는 kernel만 지정하면 되지만, 고차원()에서는 가 폭발한다. 두 방법 모두 “모델이 실제 구조를 얼마나 잘 포착하는가”에 regret이 의존한다.
정리
- Contextual Bandit은 MAB를 personalization 구조로 확장한다. 최적 action이 context마다 다르고, regret은 per-context optimal과의 gap을 누적한다.
- Linear Bandit은 feature dimension 만으로 sample complexity를 제어한다. Arm count 는 regret에 나타나지 않는다 — 선형 구조가 transfer를 가능하게 하기 때문이다.
- OFUL의 핵심 도구는 Elliptical Potential Lemma다. 라는 이 부등식이 현대 bandit 및 RL 이론 전체에서 반복된다.
- GP-UCB는 같은 “optimism” 원리를 커널 공간으로 옮긴다. 가 ellipsoid의 역할을, 가 의 역할을 한다.
세 알고리즘이 공유하는 철학: 불확실성을 수치화하고, 그 수치만큼 낙관적으로 행동하라. 다음 챕터에서는 이 원리가 MDP 전체로 확장될 때 어떤 새로운 도구가 필요한지 — LSVI-UCB와 linear MDP — 를 추적한다.