← all posts
AI 2026.05.03 · 10 min read Advanced

UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가

OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.


Multi-Armed Bandit 문제에서 탐색(exploration)과 착취(exploitation)의 균형을 맞추는 방법은 수십 년간 연구되어 왔다. 그런데 UCB1부터 KL-UCB, MOSS에 이르기까지 서로 다른 알고리즘들이 공통적으로 단 하나의 공식 패턴empirical mean + bonus — 을 공유한다는 사실은 우연이 아니다. 왜 이 단순한 구조가 정보이론적 하한에 근접하는 regret 보장을 가능하게 하는가?

Optimism in the Face of Uncertainty

모든 UCB 계열 알고리즘의 출발점은 OFU(Optimism in the Face of Uncertainty) 원칙이다.

UCBk(t)=μ^k(t)+bonusk(t),It=argmaxkUCBk(t)\text{UCB}_k(t) = \hat\mu_k(t) + \text{bonus}_k(t), \quad I_t = \arg\max_k \text{UCB}_k(t)

여기서 μ^k(t)\hat\mu_k(t)는 arm kk의 경험적 평균, bonus는 불확실성을 반영한 상향 보정이다. 핵심은 두 가지다. 첫째, 탐색 횟수 Nk(t)N_k(t)가 작을수록 bonus가 크므로 덜 시도된 arm을 우선 선택한다. 둘째, arm이 실제로 나쁘면 μ^k\hat\mu_k가 낮아지므로 bonus가 아무리 커도 결국 선택에서 밀려난다. 이 자동 해소(automatic elimination) 메커니즘이 OFU를 단순한 낙관론과 구분짓는다.

Hoeffding inequality를 사용하면 bonus의 형태가 자연스럽게 유도된다. 샘플 NN개에서 신뢰수준 δ\delta를 보장하는 confidence radius는

b=ln(1/δ)2Nb = \sqrt{\frac{\ln(1/\delta)}{2N}}

이다. 전체 시간과 arm에 union bound를 적용하면 δ=1/t2\delta = 1/t^2으로 설정하는 것이 자연스럽고, 이로부터 UCB1의 bonus 2lnt/Nk\sqrt{2\ln t / N_k}가 나온다.

UCB1 Regret 증명의 구조

UCB1(Auer et al. 2002)의 regret bound는 다음과 같다.

RTk:Δk>08lnTΔk+(1+π23)kΔkR_T \leq \sum_{k:\,\Delta_k > 0} \frac{8\ln T}{\Delta_k} + \left(1 + \frac{\pi^2}{3}\right)\sum_k \Delta_k

여기서 Δk=μμk\Delta_k = \mu^* - \mu_k는 sub-optimality gap이다.

정리 1 · UCB1 Regret Bound

K-armed Bernoulli bandit에서 UCB1을 실행하면, 기대 regret은 O(klnT/Δk)O(\sum_k \ln T / \Delta_k)이다.

▷ 증명

증명은 세 단계로 진행된다.

Step 1 — Good event 정의. E\mathcal{E}를 모든 arm kk, 모든 시간 tt에서 Hoeffding CI가 성립하는 사건으로 정의한다. Union bound에 의해 Pr(Ec)=O(1/T)\Pr(\mathcal{E}^c) = O(1/T).

Step 2 — 선택 횟수 상계. E\mathcal{E} 위에서 sub-optimal arm kk가 선택되면, confidence interval이 겹쳐야 한다. 이를 정리하면

22lntNk(t)ΔkNk(t)8lntΔk22\sqrt{\frac{2\ln t}{N_k(t)}} \geq \Delta_k \quad \Rightarrow \quad N_k(t) \leq \frac{8\ln t}{\Delta_k^2}

따라서 arm kk의 총 pull 횟수는 Nk(T)8lnT/Δk2+O(1)N_k(T) \leq 8\ln T / \Delta_k^2 + O(1)으로 bounded된다.

Step 3 — Regret 합산. RT=kΔkNk(T)R_T = \sum_k \Delta_k N_k(T)에 Step 2 결과를 대입하면

RTk8lnTΔk+(1+π23)kΔkR_T \leq \sum_k \frac{8\ln T}{\Delta_k} + \left(1+\frac{\pi^2}{3}\right)\sum_k \Delta_k \qquad \square

π2/6\pi^2/6 상수는 t=11/t2=π2/6\sum_{t=1}^\infty 1/t^2 = \pi^2/6 (Basel problem)에서 비롯된다.

Worst-case 분석에서 모든 gap을 Δk=Θ(1/T)\Delta_k = \Theta(1/\sqrt{T})로 설정하면 이 bound는 O(KTlnT)O(\sqrt{KT\ln T})가 된다. 한편 minimax lower bound는 Ω(KT)\Omega(\sqrt{KT})이므로, UCB1은 lnT\sqrt{\ln T} factor만큼 최적에서 벗어난다.

KL-UCB — 정보이론적 최적성

UCB1의 Hoeffding bound는 distribution-free이므로 상수가 느슨하다. Garivier & Cappé (2011)의 KL-UCB는 이를 KL divergence로 교체한다.

UCBk(t)=sup{q:Nk(t)D(μ^k(t)q)ln(t/δ)}\text{UCB}_k(t) = \sup\left\{q : N_k(t) \cdot D(\hat\mu_k(t) \| q) \leq \ln(t/\delta)\right\}

Bernoulli KL divergence D(μq)=μln(μ/q)+(1μ)ln((1μ)/(1q))D(\mu \| q) = \mu\ln(\mu/q) + (1-\mu)\ln((1-\mu)/(1-q))는 Hoeffding보다 약 2배 좁은 confidence set을 만든다. 이 차이는 단순한 상수 개선이 아니라, distribution의 내부 구조를 활용하는 것이다.

KL-UCB의 regret bound는 다음과 같다.

RT(1+o(1))kklnTD(μkμ)R_T \leq (1+o(1))\sum_{k\neq k^*} \frac{\ln T}{D(\mu_k \| \mu^*)}

이것이 중요한 이유는 Lai-Robbins lower bound와 정확히 일치하기 때문이다.

lim infTRTlnTkkΔkD(μkμ)\liminf_{T\to\infty} \frac{R_T}{\ln T} \geq \sum_{k\neq k^*} \frac{\Delta_k}{D(\mu_k \| \mu^*)}

이 하한은 정보이론적으로 불가피하다. Arm kk와 optimal arm kk^*를 구분하려면 hypothesis test를 통과해야 하고, 그 비용은 정확히 lnT/D(μkμ)\ln T / D(\mu_k \| \mu^*)만큼의 샘플을 요구한다. KL-UCB는 이 비용을 정확히 지불한다 — 더도 덜도 아니게.

트레이드오프

KL-UCB는 distribution을 알아야 하고 (Bernoulli, Gaussian 등), supremum 계산에 binary search가 필요하다. 반면 UCB1은 closed-form이며 distribution-free다. 실전에서는 이 계산 비용과 최적성 사이의 균형을 고려해야 한다. Thompson Sampling은 비슷한 empirical 성능을 훨씬 단순하게 달성해 실무에서 더 자주 쓰인다.

MOSS — lnT\sqrt{\ln T} 없이 Minimax 달성

MOSS(Minimax Optimal Strategy in the Stochastic case, Audibert & Bubeck 2010)는 lnT\sqrt{\ln T} factor를 완전히 제거한다.

MOSSk(t)=μ^k(t)+ln ⁣(T/(KNk(t)))+Nk(t)\text{MOSS}_k(t) = \hat\mu_k(t) + \sqrt{\frac{\ln\!\left(T/(K \cdot N_k(t))\right)^+}{N_k(t)}}

여기서 (x)+=max(x,0)(x)^+ = \max(x, 0)이다. UCB1의 lnt\ln t와 달리 MOSS는 ln(T/(KNk))\ln(T/(KN_k))를 사용한다. 이 차이는 작아 보이지만 결정적이다. Nk>T/KN_k > T/K가 되면 log 항이 0이 되어 bonus가 사라진다 — arm이 “할당된 예산”을 다 썼다는 신호다.

이 메커니즘은 각 arm에 T/KT/K의 균등 예산을 암묵적으로 배분한다. 균형 gap Δk=Θ(1/T)\Delta_k = \Theta(1/\sqrt{T}) 위에서 MOSS의 regret은

RT=O ⁣(KT)R_T = O\!\left(\sqrt{KT}\right)

가 되어 lower bound Ω(KT)\Omega(\sqrt{KT})와 정확히 맞아 떨어진다. 단, MOSS는 TT를 미리 알아야 한다. UCB1의 anytime 성질을 잃는 대가로 lnT\sqrt{\ln T} factor를 제거한 것이다.

정리

  • OFU 원칙은 UCB = empirical mean + bonus 형태로 UCB1, KL-UCB, MOSS, UCRL2, LSVI-UCB까지 이어지는 통일 프레임워크다.
  • UCB1의 regret 증명은 good event + case analysis + union bound의 세 단계로 구성되며, Nk(T)8lnT/Δk2N_k(T) \leq 8\ln T / \Delta_k^2가 핵심 부등식이다.
  • KL-UCB는 distribution 고유의 KL divergence를 활용해 Lai-Robbins 하한을 달성한다 — problem-dependent 최적.
  • MOSS는 ln(T/(KNk))\ln(T/(KN_k)) bonus로 각 arm의 탐색 예산을 동적으로 조절해 O(KT)O(\sqrt{KT}) minimax 최적을 달성한다.

단순한 공식 뒤에는 통계적 신뢰와 정보이론적 필연이 함께 있다.

REF
Auer, Cesa-Bianchi, Fischer · 2002 · Finite-time Analysis of the Multiarmed Bandit Problem · Machine Learning
REF
Garivier, Cappé · 2011 · KL-UCB: Kullback-Leibler Upper Confidence Bound · COLT