← all posts
AI 2026.05.03 · 11 min read Advanced

Thompson Sampling은 왜 파라미터 없이도 최적인가

Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.


UCB는 신뢰구간 상한이라는 결정론적 규칙으로 탐색과 활용을 조율한다. Thompson Sampling은 그 대신 posterior에서 하나의 시나리오를 뽑아 그 시나리오 아래 최선을 다한다. 두 방법은 점근적으로 같은 regret bound를 달성하지만, Thompson Sampling에는 파라미터가 없다. 왜 이 단순한 확률론적 아이디어가 정보이론적 최적에 도달하는가?

Posterior Sampling이라는 아이디어

Multi-armed bandit에서 agent는 매 시점마다 “어떤 arm이 가장 좋을까?”라는 질문에 답해야 한다. UCB의 답은 “지금까지 데이터로 가능한 최대값을 arm마다 계산해 가장 큰 것”이다. Thompson Sampling의 답은 다르다 — 현재 믿음(posterior)에서 true parameter를 하나 추측하고, 그 추측 아래 가장 좋은 arm을 고른다.

It=argmaxkμ~k,μ~kpt(μkHt)I_t = \arg\max_k \tilde\mu_k, \qquad \tilde\mu_k \sim p_t(\mu_k \mid \mathcal{H}_t)

이 단순함 뒤에 probability matching이라는 성질이 숨어 있다.

명제 1 · Probability Matching (Thompson 1933)

Thompson Sampling 정책 π\pi에서, arm kk를 선택할 확률은 그 arm이 최적일 사후 확률과 정확히 같다.

Pπ(arm k chosen at time t)=P(μk=μHt)P_\pi(\text{arm } k \text{ chosen at time } t) = P(\mu_k = \mu^* \mid \mathcal{H}_t)

▷ 증명

Thompson Sampling은 posterior pt(μ)p_t(\mu)에서 complete scenario μ~\tilde\mu를 sample한다. 그 scenario 하에서 arm kk가 선택되는 것은 μ~k>μ~j\tilde\mu_k > \tilde\mu_j for all jkj \neq k인 경우다. Posterior의 symmetry에 의해, 이 확률은 arm kk가 posterior 하에서 실제로 최적일 확률과 같다. \square

이것이 “자동 calibration”이다. Posterior 불확실성이 크면 여러 arm을 골고루 탐색하고, 수렴하면 가장 좋아 보이는 arm에 집중한다 — 파라미터 조정 없이.

Beta-Bernoulli: 3줄로 끝나는 구현

이 아이디어를 실제로 돌리려면 posterior를 업데이트할 수 있어야 한다. Bernoulli reward(r{0,1}r \in \{0, 1\})에 Beta prior를 쓰면 conjugacy 덕분에 posterior가 closed-form으로 유지된다.

Prior: θkBeta(αk,βk)\theta_k \sim \text{Beta}(\alpha_k, \beta_k)

관측 r{0,1}r \in \{0, 1\} 후 posterior:

θkrBeta(αk+r, βk+1r)\theta_k \mid r \sim \text{Beta}(\alpha_k + r,\ \beta_k + 1 - r)

▷ 증명

Likelihood p(rθ)=θr(1θ)1rp(r \mid \theta) = \theta^r(1-\theta)^{1-r}와 prior θα1(1θ)β1\theta^{\alpha-1}(1-\theta)^{\beta-1}를 곱하면,

p(θr)θα+r1(1θ)β+1r1p(\theta \mid r) \propto \theta^{\alpha + r - 1}(1-\theta)^{\beta + 1 - r - 1}

이는 Beta(α+r, β+1r)\text{Beta}(\alpha + r,\ \beta + 1 - r)의 kernel이다. nn번 관측(성공 SS, 실패 FF)에 대해 귀납적으로 적용하면 Beta(α0+S, β0+F)\text{Beta}(\alpha_0 + S,\ \beta_0 + F). \square

성공이면 α\alpha 에 1을 더하고, 실패면 β\beta 에 1을 더한다. α\alpha는 “성공 횟수의 prior 누적”이고 β\beta는 “실패 횟수의 prior 누적”이다. 코드로 쓰면:

# posterior update — 3줄
r_t = np.random.binomial(1, theta_true[I_t])
alpha[I_t] += r_t
beta[I_t] += 1 - r_t

Regret의 정보이론적 상한

Thompson Sampling이 우아하다는 것은 오래 알려졌지만, 이론적 보장은 한동안 열린 문제였다. 2012년 Agrawal & Goyal이 frequentist regret upper bound를 증명했고, 같은 해 **Kaufmann et al.**이 Lai-Robbins lower bound를 동일한 형태로 제시했다.

RTO~ ⁣(i:Δi>0ΔiKL(μiμ))logT\boxed{R_T \leq \tilde{O}\!\left(\sum_{i:\Delta_i>0} \frac{\Delta_i}{\mathrm{KL}(\mu_i \| \mu^*)}\right) \log T}

증명의 핵심 구조는 세 단계다.

Step 1 — Bad event 정의. Posterior sample이 true value로부터 clogt/Ni(t)\sqrt{c \log t / N_i(t)} 이상 벗어나는 경우를 bad event Bi,t\mathcal{B}_{i,t}로 정의한다. Chernoff bound에 의해 P(Bi,t)tcP(\mathcal{B}_{i,t}) \leq t^{-c}이고, 전체 합산은 ttc=O(1)\sum_t t^{-c} = O(1)에 그친다.

Step 2 — Good event에서의 regret. Bad event가 아닌 경우, posterior가 true parameter 근방에 집중되어 있으므로 suboptimal arm ii를 선택할 확률은 지수적으로 감소한다:

E[Ni(T)]logTKL(μiμ)+o(logT)\mathbb{E}[N_i(T)] \leq \frac{\log T}{\mathrm{KL}(\mu_i \| \mu^*)} + o(\log T)

Step 3 — 종합. RT=iΔiE[Ni(T)]R_T = \sum_i \Delta_i \cdot \mathbb{E}[N_i(T)]에 Step 2를 대입하면 bound가 나온다. 이것이 Lai-Robbins lower bound와 같은 계수를 가지므로 Thompson Sampling은 asymptotically optimal이다.

KL divergence가 결정하는 난이도

regret bound의 분모 KL(μiμ)\mathrm{KL}(\mu_i \| \mu^*)는 arm ii와 최적 arm을 구별하기 위해 필요한 정보량이다. gap Δi\Delta_i가 작아도 KL이 크면 빨리 구별할 수 있다. 반대로 Δi=0.01\Delta_i = 0.01이고 KL도 작으면(μi\mu_iμ\mu^*가 정말 비슷하면) regret coefficient가 커진다 — 이것이 narrow gap에서 bandit이 어려운 이유다.

Bayesian Regret과 정보비율

Russo & Van Roy (2014)는 다른 렌즈를 제시했다. Prior P0(θ)P_0(\theta)에 대한 기대 regret:

RˉT:=EθP0[t=1T(μ(θ)μIt(θ))]\bar{R}_T := \mathbb{E}_{\theta \sim P_0}\left[\sum_{t=1}^T (\mu^*(\theta) - \mu_{I_t}(\theta))\right]

그리고 각 시점의 information ratio:

Γt(a):=E[(μμa)2]E[I(a;XtHt1)]\Gamma_t(a) := \frac{\mathbb{E}[(\mu^* - \mu_a)^2]}{\mathbb{E}[I(a;\, X_t \mid \mathcal{H}_{t-1})]}

분자는 action aa의 기대 손실(제곱), 분모는 그 action으로 얻는 기대 mutual information이다. Cauchy-Schwarz를 적용하면:

RˉTO ⁣(TΓlogK)\bar{R}_T \leq O\!\left(\sqrt{T \cdot \Gamma^* \cdot \log K}\right)

Thompson Sampling의 probability matching은 이 Γt\Gamma_t암묵적으로 작게 유지한다. 불확실한 arm을 탐색할수록 regret은 커지지만 정보 획득도 커지므로 비율이 통제된다.

이 관점에서 **Information Directed Sampling (IDS, Russo & Van Roy 2018)**이 나온다:

at=argminaΓt(a)a_t^* = \arg\min_a\, \Gamma_t(a)

IDS는 정보비율을 명시적으로 최소화한다. Thompson Sampling과 같은 O(TlogK)O(\sqrt{T \log K}) bound를 달성하지만, 구조가 있는 문제(linear bandit, contextual bandit)에서 더 작은 상수를 달성할 수 있다.

트레이드오프: TS vs IDS

Thompson Sampling은 posterior sample 하나로 끝나므로 계산 비용이 낮고, probability matching으로 자동 calibration된다. IDS는 모든 action마다 regret과 information을 계산해야 하므로 비용이 높지만, 명시적 최적화가 특정 narrow-gap 인스턴스에서 더 좋은 상수를 준다. Pure bandit에서는 TS가, 고차원 구조 문제에서는 IDS 프레임워크가 더 자연스럽다.

정리

  • Thompson Sampling은 posterior sample로 probability matching을 구현한다 — arm kk를 고를 확률이 arm kk가 최적일 확률과 같다.
  • Beta-Bernoulli conjugacy는 3줄 업데이트로 exact posterior를 유지한다. 이것이 closed-form 구현의 토대다.
  • Agrawal & Goyal (2012)의 frequentist bound와 Kaufmann et al.의 Lai-Robbins lower bound가 계수 수준에서 일치한다 — Thompson Sampling은 asymptotically optimal이다.
  • Russo & Van Roy의 정보비율 프레임워크는 TS의 자동 calibration을 수식화하고, 이를 명시적으로 최적화한 IDS로 확장한다.

Bayesian bandit의 깊은 메시지는 하나다 — 불확실성을 exploration 신호로 직접 사용하면, 별도의 튜닝 없이 정보이론적 최적에 도달할 수 있다.

REF
Russo & Van Roy · 2014 · Learning to Optimize via Information-Directed Sampling · NeurIPS