PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.
- 01 Bandit 알고리즘은 왜 로그 regret을 목표로 하는가
- 02 UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가
- 03 Thompson Sampling은 왜 파라미터 없이도 최적인가
- 04 Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리
- 05 PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가
- 06 MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB
- 07 Best Arm Identification는 어떻게 최적에 수렴하는가
DQN은 “충분히 오래 훈련하면 수렴한다”는 사실에 기댄다. 하지만 얼마나 오래 훈련해야 하는가? PAC-MDP 이론은 이 질문을 정확한 수학으로 바꾼다 — “확률 로 -최적 정책을 보장하는 데 필요한 최소 샘플 수는 얼마인가?”
탐색의 비용을 정형화하기
경험적 RL에는 탐색 비용에 대한 명시적 회계가 없다. PAC-MDP는 이를 샘플 복잡도 로 정형화한다.
알고리즘 가 -PAC이 되려면 다음 조건을 만족해야 한다.
여기서 는 “탐색 중” 시점의 집합이고 이다. 핵심은 의 존재 허용이다. 초기 탐색 단계를 명시적으로 허용하고, 그 이후 시점에서만 -최적성을 요구한다. 가 없다면 어떤 알고리즘도 첫 방문 전부터 보장을 달성할 수 없으므로 정의 자체가 공허해진다.
Polynomial PAC-MDP는 가 다음과 같이 상태 공간, 행동 공간, 정확도 파라미터들의 다항식으로 표현되는 경우다.
“다항식”이라는 조건은 지수적 복잡도와 구별되는 이론적 분기점이다.
R-MAX: 낙관주의를 통한 자동 탐색
R-MAX (Brafman & Tennenholtz 2002)는 PAC-MDP를 처음으로 구체적으로 달성한 알고리즘이다. 아이디어는 단순하다 — 미방문 상태-행동 쌍은 최고로 가정한다.
threshold 을 기준으로 optimistic MDP 을 다음과 같이 구성한다.
미방문 쌍에는 최고 보상 를 할당하고, self-loop 전이를 붙인다. self-loop의 효과는 미묘하다. Q(s,a) = R_max + γV(s) 구조에서 현재 상태의 가치를 반복적으로 끌어올려, uniform distribution보다 탐색 압력이 강하게 유지된다. 이 구조로부터 다음이 따른다.
모든 시점 에 대해 .
미방문 에 가 할당된다. Bellman backup 연산자는 단조증가이므로, optimistic MDP에서의 value는 true MDP의 value를 항상 상회한다.
이 낙관주의가 탐색을 자동으로 유도한다. 알고리즘은 미방문 쌍을 “최고로 보이는 선택지”로 평가하므로 greedy policy가 자연스럽게 탐색으로 이어진다. 별도의 탐색 스케줄이 필요없다.
Simulation Lemma와 의 기원
R-MAX의 샘플 복잡도 bound는 다음과 같다.
왜 인가? 이 거듭제곱은 세 독립적인 인자의 곱으로 나타난다.
첫 번째 인자는 Simulation Lemma에서 나온다. 두 MDP 과 의 가치 차이는 전이 커널의 TV distance로 upper bound된다.
이 식은 라는 사실에서 도출된다. Bellman equation을 빼면 가 되고, 정리하면 로 나누는 항이 두 번 등장한다.
두 번째 인자는 Hoeffding + Union bound에서 나온다. 각 를 번 방문했을 때 를 개 쌍 전체에 동시 보장하려면, 각 쌍에 의 실패 확률을 배정해야 한다. 이로부터
이 되고, 로 설정하면 또 다른 가 등장한다.
세 번째 인자는 covering time 분석에서 추가된다. 모든 가 번 방문되기까지의 시간이 에 비례하고, 여기에 optimism이 유도하는 탐색 효율이 곱해진다.
대부분 분석의 looseness다. Simulation lemma를 더 타이트하게 적용하면 수준까지 줄일 수 있다는 증거가 있다. Jin et al. (2020)의 LSVI-UCB는 linear MDP 가정으로 의존성 자체를 제거했다. 그러나 tabular setting에서 완전한 gap 폐쇄는 여전히 open problem이다.
E³: 명시적 탐색의 대가
E³ (Kearns & Singh 2002)는 R-MAX와 다른 철학을 택한다. 낙관주의 대신 상태 공간을 Known set 와 Unknown set 로 명시적으로 분리한다.
Phase Exploit: K_k 안에서 greedy policy 실행
Phase Explore: balanced wandering으로 U_k 진입
— 가장 적게 실행된 행동 선택
balanced wandering은 각 의 방문 빈도를 균등화한다. 직관적으로는 더 공정하지만, 대가가 있다. Diameter 인 MDP에서 covering time이 이 되고, worst-case에서 이면 전체 bound는 까지 커진다. R-MAX의 암묵적 낙관주의가 더 효율적인 탐색을 달성하는 셈이다.
하한: 모든 알고리즘이 넘어야 할 벽
PAC-MDP 이론은 상한만으로 완결되지 않는다. Kakade (2003)의 하한이 벽을 정의한다.
증명 전략은 adversarial construction이다. 개의 독립적인 Bernoulli arm처럼 동작하는 MDP를 구성한다. 각 arm의 reward probability가 0.4인지 0.6인지 구분하려면 Chernoff bound에 의해 번의 샘플이 필요하다. 개 arm을 동시에 구분해야 하므로 가 하한이 된다. 은 할인 factor가 가치 추정의 구별 가능성에 미치는 영향에서 나온다.
R-MAX upper bound와 lower bound의 gap을 정리하면 다음과 같다.
| | | | | | |---|---|---|---|---| | R-MAX upper | | | | | | Lower bound | | | | | | Gap | | — | | |
는 일치한다. , , 에서 polynomial gap이 존재한다. 이 gap은 exponential이 아니므로 “이론적 승리”지만, 완전히 닫히지 않았다는 점에서 연구 과제로 남아 있다.
정리
- PAC-MDP는 탐색 비용을 -보장과 샘플 복잡도 로 정형화한다. 탐색 구간 를 명시적으로 허용하는 것이 핵심 설계 선택이다.
- R-MAX의 낙관주의 원리 — 미방문 쌍에 를 할당하고 self-loop을 붙이는 것 — 는 별도의 탐색 스케줄 없이 자동 탐색을 달성한다.
- Simulation lemma와 Hoeffding + union bound의 조합이 거듭제곱을 만든다. 이 중 상당 부분은 분석의 looseness이며, linear MDP(LSVI-UCB)에서는 의존성 자체가 제거된다.
- 하한 는 모든 알고리즘에 적용된다. R-MAX와의 polynomial gap은 여전히 열린 문제다.
“충분히 오래 훈련했다”는 직관을 수학으로 바꾸면, 그 안에 환경의 크기, 요구 정확도, 실패 허용 확률, 할인 구조가 모두 얽혀 있다.