Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.
- 01 Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
- 02 UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
- 03 Thompson Sampling은 왜 파라미터 없이도 최적인가
- 04 Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
- 05 PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
- 06 MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB
- 07 Best Arm Identification는 어떻게 최적에 수렴하는가
Stochastic bandit 문제는 RL에서 state를 제거한 형태다. 남는 것은 오직 하나 — 불확실한 선택지 중 무엇을 얼마나 시도해야 하는가. 이 질문에 답하는 과정에서 등장한 regret 이론은, UCB부터 Thompson Sampling까지 현대 탐색 알고리즘 전체의 뼈대가 된다. 왜 선형 regret은 피해야 하고, 왜 로그 regret이 달성 가능한 최선인가?
문제의 정의: regret과 gap-decomposition
개의 팔이 각각 분포 를 따르고, 팔 의 평균 보상을 라 하자. 최적 평균은 . 시간 동안 정책 가 누적하는 expected regret은 다음과 같다.
이 식을 팔별로 분해하면 gap-decomposition이 나온다.
여기서 는 팔 의 suboptimality gap, 는 팔 를 선택한 횟수다. 증명은 단순하다. 각 스텝에서의 손실이 이므로, 팔별로 묶으면 의 합이 된다.
이 한 식이 모든 bandit 분석의 출발점이다. regret을 줄이려면 나쁜 팔을 적게 뽑아야 하고, 나쁜 팔을 적게 뽑으려면 좋은 팔을 빨리 찾아야 한다. 탐색-활용 딜레마는 여기서 정량화된다.
두 극단의 실패: 왜 둘 다 인가
Pure exploitation(greedy)과 pure exploration(uniform random)은 직관적으로 반대처럼 보이지만 regret 측면에서는 같은 결말에 이른다.
Greedy의 실패는 초기 noise에서 비롯된다. 인 문제에서, 첫 몇 번의 시도 중 arm 2가 운 좋게 높은 표본 평균을 가지면 greedy는 이후 동안 arm 2만 선택한다. Gap-decomposition에서 이므로 .
Uniform random의 실패는 명백하다. 이므로,
나쁜 팔을 계속 동등하게 뽑는 한 선형 손실은 피할 수 없다.
-greedy는 두 극단 사이의 타협이다. Constant 이면 로 여전히 선형이고, decaying 이면 로 로그 수렴이 가능하다. 그러나 상수 를 설정하려면 을 사전에 알아야 한다는 catch-22가 있다.
, 이라 할 때, 선형 regret 인 반면 로그 regret 다. 지수적 차이다. 대규모 추천 시스템에서 이 차이는 매일 수억 원의 기회비용으로 나타난다.
Lai-Robbins 하한: 로그 regret의 정보이론적 근거
ε-greedy가 달성한 는 그냥 “좋은” 결과가 아니다. Lai & Robbins(1985)는 모든 일관성 있는 알고리즘에 대해 이 이하로 내려갈 수 없음을 증명했다.
모든 consistent 알고리즘 와 모든 suboptimal arm 에 대해,
따라서 cumulative regret은,
핵심은 change-of-measure 논증이다. 원래 instance 에서 arm 를 최적으로 만드는 alternative instance 를 구성한다. Consistent 알고리즘은 에서 arm 를 적게 선택하면서 동시에 에서 arm 를 적게 선택해야 한다. 두 instance를 번의 관측으로 구별하는 오류 확률은 Bretagnolle-Huber inequality에 의해 이하로 떨어지지 않는다. Consistency가 이 오류 확률에 하한을 주므로, 가 유도된다.
KL divergence가 분모에 등장하는 이유는 정보이론적 구별 어려움이다. 와 인 두 Bernoulli 분포의 KL divergence는 약 로 극히 작다. 이는 두 분포를 구별하려면 번의 관측이 필요하다는 뜻이다. Gap이 작을수록 탐색 비용이 폭발적으로 늘어나는 이유가 여기 있다.
두 가지 최적성: problem-dependent와 minimax
하한이 존재하면 자연스럽게 질문이 생긴다. 이 하한에 도달하는 알고리즘이 있는가? 그리고 어떤 의미의 “최적”을 목표로 해야 하는가?
Problem-dependent 관점은 주어진 instance의 gap 구조에 적응한다. UCB1의 상한은 다음과 같다.
Bernoulli 분포에서 이므로, 이는 Lai-Robbins 하한에 상수 내에서 일치한다. UCB1은 problem-dependent optimal이다.
Minimax 관점은 가장 나쁜 instance에 대한 보장을 목표로 한다.
UCB1은 를 보장하지만, Audibert & Bubeck(2010)의 MOSS는 factor를 제거해 를 달성한다. MOSS의 confidence radius에서 를 사용하는 이유가 여기 있다 — 초기에는 상수 탐색 budget으로 각 팔을 충분히 시도하고, 이후 로 factor를 상쇄한다.
트레이드오프
Gap-decomposition 는 단순해 보이지만, 그 안에 근본적인 긴장이 숨어 있다.
- 탐색 부족: 나쁜 팔을 최적으로 오인 → → 선형 regret
- 탐색 과다: 좋은 팔을 알면서도 나쁜 팔을 계속 시도 → uniform random과 동일
- 최적 균형: suboptimal arm 를 정확히 번만 시도 → 로그 regret
Gap이 작을수록 구별에 더 많은 샘플이 필요하다. Gap이 큰 팔은 빠르게 배제하고, 비슷한 팔들 사이에서는 더 오래 탐색한다 — 이것이 UCB와 Thompson Sampling이 공유하는 핵심 메커니즘이다.
ε-greedy의 근본적 한계는 uniform exploration이다. 모든 팔을 동등하게 탐색하기 때문에 gap이 큰 팔을 빨리 배제하지 못한다. UCB는 confidence bound를 통해 불확실성이 높은 팔(덜 탐색된 팔)에 자동으로 높은 가중치를 부여함으로써, 필요한 팔에만 탐색을 집중시킨다.
정리
- Regret은 로 분해된다. 알고리즘 분석의 모든 것은 이 식의 각 항을 제어하는 문제다.
- Pure exploitation과 pure exploration은 모두 regret에 수렴한다. 균형만이 를 가능하게 한다.
- Lai-Robbins(1985)는 를 증명했다. 이는 달성 가능한 절대 하한이다.
- UCB1은 problem-dependent와 minimax 두 기준 모두를 만족하며, MOSS는 minimax를 까지 날카롭게 한다.
로그 regret은 기적이 아니다. 분포의 KL divergence가 허용하는 구별 속도에 정확히 맞춰 탐색량을 조절한 결과다.