Thompson Sampling은 왜 파라미터 없이도 최적인가
Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.
- 01 Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
- 02 UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
- 03 Thompson Sampling은 왜 파라미터 없이도 최적인가
- 04 Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
- 05 PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
- 06 MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB
- 07 Best Arm Identification는 어떻게 최적에 수렴하는가
UCB는 신뢰구간 상한이라는 결정론적 규칙으로 탐색과 활용을 조율한다. Thompson Sampling은 그 대신 posterior에서 하나의 시나리오를 뽑아 그 시나리오 아래 최선을 다한다. 두 방법은 점근적으로 같은 regret bound를 달성하지만, Thompson Sampling에는 파라미터가 없다. 왜 이 단순한 확률론적 아이디어가 정보이론적 최적에 도달하는가?
Posterior Sampling이라는 아이디어
Multi-armed bandit에서 agent는 매 시점마다 “어떤 arm이 가장 좋을까?”라는 질문에 답해야 한다. UCB의 답은 “지금까지 데이터로 가능한 최대값을 arm마다 계산해 가장 큰 것”이다. Thompson Sampling의 답은 다르다 — 현재 믿음(posterior)에서 true parameter를 하나 추측하고, 그 추측 아래 가장 좋은 arm을 고른다.
이 단순함 뒤에 probability matching이라는 성질이 숨어 있다.
Thompson Sampling 정책 에서, arm 를 선택할 확률은 그 arm이 최적일 사후 확률과 정확히 같다.
Thompson Sampling은 posterior 에서 complete scenario 를 sample한다. 그 scenario 하에서 arm 가 선택되는 것은 for all 인 경우다. Posterior의 symmetry에 의해, 이 확률은 arm 가 posterior 하에서 실제로 최적일 확률과 같다.
이것이 “자동 calibration”이다. Posterior 불확실성이 크면 여러 arm을 골고루 탐색하고, 수렴하면 가장 좋아 보이는 arm에 집중한다 — 파라미터 조정 없이.
Beta-Bernoulli: 3줄로 끝나는 구현
이 아이디어를 실제로 돌리려면 posterior를 업데이트할 수 있어야 한다. Bernoulli reward()에 Beta prior를 쓰면 conjugacy 덕분에 posterior가 closed-form으로 유지된다.
Prior:
관측 후 posterior:
Likelihood 와 prior 를 곱하면,
이는 의 kernel이다. 번 관측(성공 , 실패 )에 대해 귀납적으로 적용하면 .
성공이면 에 1을 더하고, 실패면 에 1을 더한다. 는 “성공 횟수의 prior 누적”이고 는 “실패 횟수의 prior 누적”이다. 코드로 쓰면:
# posterior update — 3줄
r_t = np.random.binomial(1, theta_true[I_t])
alpha[I_t] += r_t
beta[I_t] += 1 - r_t
Regret의 정보이론적 상한
Thompson Sampling이 우아하다는 것은 오래 알려졌지만, 이론적 보장은 한동안 열린 문제였다. 2012년 Agrawal & Goyal이 frequentist regret upper bound를 증명했고, 같은 해 **Kaufmann et al.**이 Lai-Robbins lower bound를 동일한 형태로 제시했다.
증명의 핵심 구조는 세 단계다.
Step 1 — Bad event 정의. Posterior sample이 true value로부터 이상 벗어나는 경우를 bad event 로 정의한다. Chernoff bound에 의해 이고, 전체 합산은 에 그친다.
Step 2 — Good event에서의 regret. Bad event가 아닌 경우, posterior가 true parameter 근방에 집중되어 있으므로 suboptimal arm 를 선택할 확률은 지수적으로 감소한다:
Step 3 — 종합. 에 Step 2를 대입하면 bound가 나온다. 이것이 Lai-Robbins lower bound와 같은 계수를 가지므로 Thompson Sampling은 asymptotically optimal이다.
regret bound의 분모 는 arm 와 최적 arm을 구별하기 위해 필요한 정보량이다. gap 가 작아도 KL이 크면 빨리 구별할 수 있다. 반대로 이고 KL도 작으면(와 가 정말 비슷하면) regret coefficient가 커진다 — 이것이 narrow gap에서 bandit이 어려운 이유다.
Bayesian Regret과 정보비율
Russo & Van Roy (2014)는 다른 렌즈를 제시했다. Prior 에 대한 기대 regret:
그리고 각 시점의 information ratio:
분자는 action 의 기대 손실(제곱), 분모는 그 action으로 얻는 기대 mutual information이다. Cauchy-Schwarz를 적용하면:
Thompson Sampling의 probability matching은 이 를 암묵적으로 작게 유지한다. 불확실한 arm을 탐색할수록 regret은 커지지만 정보 획득도 커지므로 비율이 통제된다.
이 관점에서 **Information Directed Sampling (IDS, Russo & Van Roy 2018)**이 나온다:
IDS는 정보비율을 명시적으로 최소화한다. Thompson Sampling과 같은 bound를 달성하지만, 구조가 있는 문제(linear bandit, contextual bandit)에서 더 작은 상수를 달성할 수 있다.
Thompson Sampling은 posterior sample 하나로 끝나므로 계산 비용이 낮고, probability matching으로 자동 calibration된다. IDS는 모든 action마다 regret과 information을 계산해야 하므로 비용이 높지만, 명시적 최적화가 특정 narrow-gap 인스턴스에서 더 좋은 상수를 준다. Pure bandit에서는 TS가, 고차원 구조 문제에서는 IDS 프레임워크가 더 자연스럽다.
정리
- Thompson Sampling은 posterior sample로 probability matching을 구현한다 — arm 를 고를 확률이 arm 가 최적일 확률과 같다.
- Beta-Bernoulli conjugacy는 3줄 업데이트로 exact posterior를 유지한다. 이것이 closed-form 구현의 토대다.
- Agrawal & Goyal (2012)의 frequentist bound와 Kaufmann et al.의 Lai-Robbins lower bound가 계수 수준에서 일치한다 — Thompson Sampling은 asymptotically optimal이다.
- Russo & Van Roy의 정보비율 프레임워크는 TS의 자동 calibration을 수식화하고, 이를 명시적으로 최적화한 IDS로 확장한다.
Bayesian bandit의 깊은 메시지는 하나다 — 불확실성을 exploration 신호로 직접 사용하면, 별도의 튜닝 없이 정보이론적 최적에 도달할 수 있다.