← all posts
AI 2026.05.03 · 13 min read Advanced

Bandit 알고리즘은 왜 로그 regret을 목표로 하는가

탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.


Stochastic bandit 문제는 RL에서 state를 제거한 형태다. 남는 것은 오직 하나 — 불확실한 선택지 중 무엇을 얼마나 시도해야 하는가. 이 질문에 답하는 과정에서 등장한 regret 이론은, UCB부터 Thompson Sampling까지 현대 탐색 알고리즘 전체의 뼈대가 된다. 왜 선형 regret은 피해야 하고, 왜 로그 regret이 달성 가능한 최선인가?

문제의 정의: regret과 gap-decomposition

KK개의 팔이 각각 분포 νk\nu_k를 따르고, 팔 kk의 평균 보상을 μk\mu_k라 하자. 최적 평균은 μ=maxkμk\mu^* = \max_k \mu_k. 시간 TT 동안 정책 π\pi가 누적하는 expected regret은 다음과 같다.

RT=TμE[t=1TXIt,t]R_T = T\mu^* - \mathbb{E}\left[\sum_{t=1}^T X_{I_t, t}\right]

이 식을 팔별로 분해하면 gap-decomposition이 나온다.

RT=k=1KΔkE[Nk(T)]R_T = \sum_{k=1}^K \Delta_k \cdot \mathbb{E}[N_k(T)]

여기서 Δk=μμk\Delta_k = \mu^* - \mu_k는 팔 kk의 suboptimality gap, Nk(T)N_k(T)는 팔 kk를 선택한 횟수다. 증명은 단순하다. 각 스텝에서의 손실이 μμIt\mu^* - \mu_{I_t}이므로, 팔별로 묶으면 ΔkE[Nk(T)]\Delta_k \cdot \mathbb{E}[N_k(T)]의 합이 된다.

이 한 식이 모든 bandit 분석의 출발점이다. regret을 줄이려면 나쁜 팔을 적게 뽑아야 하고, 나쁜 팔을 적게 뽑으려면 좋은 팔을 빨리 찾아야 한다. 탐색-활용 딜레마는 여기서 정량화된다.

두 극단의 실패: 왜 둘 다 Θ(T)\Theta(T)인가

Pure exploitation(greedy)과 pure exploration(uniform random)은 직관적으로 반대처럼 보이지만 regret 측면에서는 같은 결말에 이른다.

Greedy의 실패는 초기 noise에서 비롯된다. μ=[0.5,0.51,0.7]\mu = [0.5, 0.51, 0.7]인 문제에서, 첫 몇 번의 시도 중 arm 2가 운 좋게 높은 표본 평균을 가지면 greedy는 이후 TO(1)T - O(1) 동안 arm 2만 선택한다. Gap-decomposition에서 E[N2(T)]T\mathbb{E}[N_2(T)] \approx T이므로 RTΔ2T=Θ(T)R_T \approx \Delta_2 \cdot T = \Theta(T).

Uniform random의 실패는 명백하다. E[Nk(T)]=T/K\mathbb{E}[N_k(T)] = T/K이므로,

RT=kkΔkTK=Θ(T)R_T = \sum_{k \neq k^*} \Delta_k \cdot \frac{T}{K} = \Theta(T)

나쁜 팔을 계속 동등하게 뽑는 한 선형 손실은 피할 수 없다.

ϵ\epsilon-greedy는 두 극단 사이의 타협이다. Constant ϵ\epsilon이면 RT=Θ(ϵT)R_T = \Theta(\epsilon T)로 여전히 선형이고, decaying ϵt=cK/t\epsilon_t = cK/t이면 RT=O(KlogT/Δmin2)R_T = O(K \log T / \Delta_{\min}^2)로 로그 수렴이 가능하다. 그러나 상수 cc를 설정하려면 Δmin\Delta_{\min}을 사전에 알아야 한다는 catch-22가 있다.

선형 vs 로그 regret의 실제 의미

T=106T = 10^6, Δ=0.1\Delta = 0.1이라 할 때, 선형 regret 105\approx 10^5인 반면 로그 regret 14\approx 14다. 지수적 차이다. 대규모 추천 시스템에서 이 차이는 매일 수억 원의 기회비용으로 나타난다.

Lai-Robbins 하한: 로그 regret의 정보이론적 근거

ε-greedy가 달성한 O(logT)O(\log T)는 그냥 “좋은” 결과가 아니다. Lai & Robbins(1985)는 모든 일관성 있는 알고리즘에 대해 이 이하로 내려갈 수 없음을 증명했다.

정리 1 · Lai-Robbins Lower Bound (1985)

모든 consistent 알고리즘 π\pi와 모든 suboptimal arm kkk \neq k^*에 대해,

lim infTE[Nk(T)]logT1DKL(νkν)\liminf_{T \to \infty} \frac{\mathbb{E}[N_k(T)]}{\log T} \geq \frac{1}{D_{\text{KL}}(\nu_k \| \nu^*)}

따라서 cumulative regret은,

RT(kkΔkDKL(νkν))logT(1o(1))R_T \geq \left(\sum_{k \neq k^*} \frac{\Delta_k}{D_{\text{KL}}(\nu_k \| \nu^*)}\right) \log T \cdot (1 - o(1))
▷ 증명

핵심은 change-of-measure 논증이다. 원래 instance ν\nu에서 arm kk를 최적으로 만드는 alternative instance ν\nu'를 구성한다. Consistent 알고리즘은 ν\nu에서 arm kk를 적게 선택하면서 동시에 ν\nu'에서 arm kk^*를 적게 선택해야 한다. 두 instance를 Nk(T)N_k(T)번의 관측으로 구별하는 오류 확률은 Bretagnolle-Huber inequality에 의해 exp(Nk(T)DKL(νkν))\exp(-N_k(T) \cdot D_{\text{KL}}(\nu_k \| \nu^*)) 이하로 떨어지지 않는다. Consistency가 이 오류 확률에 하한을 주므로, E[Nk(T)](logT)/DKL(νkν)\mathbb{E}[N_k(T)] \geq (\log T) / D_{\text{KL}}(\nu_k \| \nu^*)가 유도된다. \square

KL divergence가 분모에 등장하는 이유는 정보이론적 구별 어려움이다. μk=0.49\mu_k = 0.49μ=0.50\mu^* = 0.50인 두 Bernoulli 분포의 KL divergence는 약 0.000120.00012로 극히 작다. 이는 두 분포를 구별하려면 logT/0.000128333logT\log T / 0.00012 \approx 8333 \log T번의 관측이 필요하다는 뜻이다. Gap이 작을수록 탐색 비용이 폭발적으로 늘어나는 이유가 여기 있다.

두 가지 최적성: problem-dependent와 minimax

하한이 존재하면 자연스럽게 질문이 생긴다. 이 하한에 도달하는 알고리즘이 있는가? 그리고 어떤 의미의 “최적”을 목표로 해야 하는가?

Problem-dependent 관점은 주어진 instance의 gap 구조에 적응한다. UCB1의 상한은 다음과 같다.

RTPD=O((logT)kk1Δk)R_T^{\text{PD}} = O\left((\log T) \sum_{k \neq k^*} \frac{1}{\Delta_k}\right)

Bernoulli 분포에서 DKLΔ2/2D_{\text{KL}} \approx \Delta^2 / 2이므로, 이는 Lai-Robbins 하한에 O(1)O(1) 상수 내에서 일치한다. UCB1은 problem-dependent optimal이다.

Minimax 관점은 가장 나쁜 instance에 대한 보장을 목표로 한다.

RTMM(K)=infπsupνRT(π,ν)R_T^{\text{MM}}(K) = \inf_\pi \sup_\nu R_T(\pi, \nu)

UCB1은 O(KTlogT)O(\sqrt{KT \log T})를 보장하지만, Audibert & Bubeck(2010)의 MOSS는 log\log factor를 제거해 Θ(KT)\Theta(\sqrt{KT})를 달성한다. MOSS의 confidence radius에서 ln(t/K)\ln(t/K)를 사용하는 이유가 여기 있다 — 초기에는 상수 탐색 budget으로 각 팔을 충분히 시도하고, 이후 lntlnK\ln t - \ln Klog\log factor를 상쇄한다.

트레이드오프

Gap-decomposition RT=kΔkE[Nk(T)]R_T = \sum_k \Delta_k \mathbb{E}[N_k(T)]는 단순해 보이지만, 그 안에 근본적인 긴장이 숨어 있다.

탐색-활용의 핵심 트레이드오프
  • 탐색 부족: 나쁜 팔을 최적으로 오인 → E[Nkk(T)]=Θ(T)\mathbb{E}[N_{k \neq k^*}(T)] = \Theta(T) → 선형 regret
  • 탐색 과다: 좋은 팔을 알면서도 나쁜 팔을 계속 시도 → uniform random과 동일
  • 최적 균형: suboptimal arm kk를 정확히 O(logT/Δk2)O(\log T / \Delta_k^2)번만 시도 → 로그 regret

Gap이 작을수록 구별에 더 많은 샘플이 필요하다. Gap이 큰 팔은 빠르게 배제하고, 비슷한 팔들 사이에서는 더 오래 탐색한다 — 이것이 UCB와 Thompson Sampling이 공유하는 핵심 메커니즘이다.

ε-greedy의 근본적 한계는 uniform exploration이다. 모든 팔을 동등하게 탐색하기 때문에 gap이 큰 팔을 빨리 배제하지 못한다. UCB는 confidence bound를 통해 불확실성이 높은 팔(덜 탐색된 팔)에 자동으로 높은 가중치를 부여함으로써, 필요한 팔에만 탐색을 집중시킨다.

정리

  • Regret은 kΔkE[Nk(T)]\sum_k \Delta_k \mathbb{E}[N_k(T)]로 분해된다. 알고리즘 분석의 모든 것은 이 식의 각 항을 제어하는 문제다.
  • Pure exploitation과 pure exploration은 모두 Θ(T)\Theta(T) regret에 수렴한다. 균형만이 Θ(logT)\Theta(\log T)를 가능하게 한다.
  • Lai-Robbins(1985)는 RTΩ((logT)kΔk/DKL)R_T \geq \Omega((\log T) \sum_k \Delta_k / D_{\text{KL}})를 증명했다. 이는 달성 가능한 절대 하한이다.
  • UCB1은 problem-dependent와 minimax 두 기준 모두를 만족하며, MOSS는 minimax를 KT\sqrt{KT}까지 날카롭게 한다.

로그 regret은 기적이 아니다. 분포의 KL divergence가 허용하는 구별 속도에 정확히 맞춰 탐색량을 조절한 결과다.

REF
Lai, T.L. and Robbins, H. · 1985 · Asymptotically Efficient Adaptive Allocation Rules · Advances in Applied Mathematics
REF
Auer, P., Cesa-Bianchi, N., and Fischer, P. · 2002 · Finite-time Analysis of the Multiarmed Bandit Problem · Machine Learning