UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.
- 01 Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
- 02 UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
- 03 Thompson Sampling은 왜 파라미터 없이도 최적인가
- 04 Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
- 05 PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
- 06 MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB
- 07 Best Arm Identification는 어떻게 최적에 수렴하는가
Multi-Armed Bandit 문제에서 탐색(exploration)과 착취(exploitation)의 균형을 맞추는 방법은 수십 년간 연구되어 왔다. 그런데 UCB1부터 KL-UCB, MOSS에 이르기까지 서로 다른 알고리즘들이 공통적으로 단 하나의 공식 패턴 — empirical mean + bonus — 을 공유한다는 사실은 우연이 아니다. 왜 이 단순한 구조가 정보이론적 하한에 근접하는 regret 보장을 가능하게 하는가?
Optimism in the Face of Uncertainty
모든 UCB 계열 알고리즘의 출발점은 OFU(Optimism in the Face of Uncertainty) 원칙이다.
여기서 는 arm 의 경험적 평균, bonus는 불확실성을 반영한 상향 보정이다. 핵심은 두 가지다. 첫째, 탐색 횟수 가 작을수록 bonus가 크므로 덜 시도된 arm을 우선 선택한다. 둘째, arm이 실제로 나쁘면 가 낮아지므로 bonus가 아무리 커도 결국 선택에서 밀려난다. 이 자동 해소(automatic elimination) 메커니즘이 OFU를 단순한 낙관론과 구분짓는다.
Hoeffding inequality를 사용하면 bonus의 형태가 자연스럽게 유도된다. 샘플 개에서 신뢰수준 를 보장하는 confidence radius는
이다. 전체 시간과 arm에 union bound를 적용하면 으로 설정하는 것이 자연스럽고, 이로부터 UCB1의 bonus 가 나온다.
UCB1 Regret 증명의 구조
UCB1(Auer et al. 2002)의 regret bound는 다음과 같다.
여기서 는 sub-optimality gap이다.
K-armed Bernoulli bandit에서 UCB1을 실행하면, 기대 regret은 이다.
증명은 세 단계로 진행된다.
Step 1 — Good event 정의. 를 모든 arm , 모든 시간 에서 Hoeffding CI가 성립하는 사건으로 정의한다. Union bound에 의해 .
Step 2 — 선택 횟수 상계. 위에서 sub-optimal arm 가 선택되면, confidence interval이 겹쳐야 한다. 이를 정리하면
따라서 arm 의 총 pull 횟수는 으로 bounded된다.
Step 3 — Regret 합산. 에 Step 2 결과를 대입하면
상수는 (Basel problem)에서 비롯된다.
Worst-case 분석에서 모든 gap을 로 설정하면 이 bound는 가 된다. 한편 minimax lower bound는 이므로, UCB1은 factor만큼 최적에서 벗어난다.
KL-UCB — 정보이론적 최적성
UCB1의 Hoeffding bound는 distribution-free이므로 상수가 느슨하다. Garivier & Cappé (2011)의 KL-UCB는 이를 KL divergence로 교체한다.
Bernoulli KL divergence 는 Hoeffding보다 약 2배 좁은 confidence set을 만든다. 이 차이는 단순한 상수 개선이 아니라, distribution의 내부 구조를 활용하는 것이다.
KL-UCB의 regret bound는 다음과 같다.
이것이 중요한 이유는 Lai-Robbins lower bound와 정확히 일치하기 때문이다.
이 하한은 정보이론적으로 불가피하다. Arm 와 optimal arm 를 구분하려면 hypothesis test를 통과해야 하고, 그 비용은 정확히 만큼의 샘플을 요구한다. KL-UCB는 이 비용을 정확히 지불한다 — 더도 덜도 아니게.
KL-UCB는 distribution을 알아야 하고 (Bernoulli, Gaussian 등), supremum 계산에 binary search가 필요하다. 반면 UCB1은 closed-form이며 distribution-free다. 실전에서는 이 계산 비용과 최적성 사이의 균형을 고려해야 한다. Thompson Sampling은 비슷한 empirical 성능을 훨씬 단순하게 달성해 실무에서 더 자주 쓰인다.
MOSS — 없이 Minimax 달성
MOSS(Minimax Optimal Strategy in the Stochastic case, Audibert & Bubeck 2010)는 factor를 완전히 제거한다.
여기서 이다. UCB1의 와 달리 MOSS는 를 사용한다. 이 차이는 작아 보이지만 결정적이다. 가 되면 log 항이 0이 되어 bonus가 사라진다 — arm이 “할당된 예산”을 다 썼다는 신호다.
이 메커니즘은 각 arm에 의 균등 예산을 암묵적으로 배분한다. 균형 gap 위에서 MOSS의 regret은
가 되어 lower bound 와 정확히 맞아 떨어진다. 단, MOSS는 를 미리 알아야 한다. UCB1의 anytime 성질을 잃는 대가로 factor를 제거한 것이다.
정리
- OFU 원칙은
UCB = empirical mean + bonus형태로 UCB1, KL-UCB, MOSS, UCRL2, LSVI-UCB까지 이어지는 통일 프레임워크다. - UCB1의 regret 증명은 good event + case analysis + union bound의 세 단계로 구성되며, 가 핵심 부등식이다.
- KL-UCB는 distribution 고유의 KL divergence를 활용해 Lai-Robbins 하한을 달성한다 — problem-dependent 최적.
- MOSS는 bonus로 각 arm의 탐색 예산을 동적으로 조절해 minimax 최적을 달성한다.
단순한 공식 뒤에는 통계적 신뢰와 정보이론적 필연이 함께 있다.