Q-Learning 수렴 증명의 통일된 구조
Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.
- 01 Model-Free RL의 네 가지 근본 질문
- 02 Monte Carlo RL은 왜 두 가지 방문 방식을 갖는가
- 03 TD Learning은 왜 MC와 DP 사이에 서 있는가
- 04 Q-Learning 수렴 증명의 통일된 구조
- 05 n-step Return에서 TD(λ)까지: 하나의 스펙트럼
- 06 Actor-Critic은 왜 두 역할로 나뉘는가
- 07 Model-Free RL의 수렴은 왜 이렇게 까다로운가
Q-Learning의 업데이트 규칙은 한 줄이다.
그런데 이 한 줄이 “왜 로 수렴하는가”를 엄밀하게 보이는 데 Watkins 1989부터 Jaakkola–Jordan–Singh 1994까지 5년이 걸렸다. 그 과정에서 드러난 것은 단순한 수렴 정리가 아니라 model-free RL 전체를 하나의 틀로 묶는 수학적 구조였다. 왜 이 구조가 그토록 오래 걸렸고, 무엇을 통일시키는가?
Off-Policy의 정의와 Q-Learning의 혁신
Watkins 이전의 model-free RL은 behavior policy와 target policy가 같아야 했다. SARSA가 대표적이다.
SARSA: Q(s,a) ← Q(s,a) + α[R + γ Q(s',a') - Q(s,a)]
여기서 a'는 현재 ε-greedy 정책으로 실제 선택된 행동
Q-Learning: Q(s,a) ← Q(s,a) + α[R + γ max_{a'} Q(s',a') - Q(s,a)]
여기서 max는 어떤 행동을 취했든 무관하게 최대값 선택
이 차이 하나가 off-policy를 만든다. behavior policy(-greedy)가 탐험을 담당하는 동안, target policy(greedy max)는 최적성을 추구한다. 두 역할이 분리되므로 “탐험하면서 최적 Q를 동시에 학습”이 가능하다.
Cliff Walking 실험은 이 분리의 결과를 극명하게 보여준다. -greedy 탐험 아래서 SARSA는 절벽 위쪽 안전 경로를 학습하고(탐험 실패 비용을 가치에 반영), Q-Learning은 절벽 가장자리 최단 경로를 학습한다(탐험 실패를 무시하고 max만 추구).
Bellman Operator와 고정점 해석
Q-Learning이 단순한 “경험적 trick”처럼 보이는 이유는 업데이트 대상이 무엇인지가 불분명하기 때문이다. 명확히 하면, Q-Learning의 TD target은 Bellman optimality operator 의 샘플 추정이다.
임의의 transition 에 대해,
의 기댓값은 정의상 이고 이므로,
따라서 Q-Learning의 업데이트는 다음과 같이 다시 쓸 수 있다.
여기서 는 zero-mean noise(), 는 -contraction이다. 이것이 stochastic approximation to a fixed point의 표준 형태다.
Robbins–Monro 조건과 수렴 보장
stochastic approximation이 fixed point로 수렴하려면 학습률 에 정확한 조건이 필요하다(Robbins & Monro 1951).
- : 누적 업데이트 크기가 충분해 어디서 시작해도 fixed point에 도달할 수 있다.
- : noise의 누적 분산이 유한하여 결국 average out된다.
상수 은 첫 조건은 만족하지만 둘째는 위반한다. 이론적으로는 수렴이 보장되지 않고 oscillation이 남는다.
Lyapunov 함수 를 설정하면, contraction과 zero-mean noise 조건 아래서 임을 보일 수 있다. 이 부등식은 가 supermartingale이라는 뜻이고, Doob의 수렴 정리를 거쳐 a.s.로 이어진다.
Watkins & Dayan 1992의 정리는 세 조건으로 정리된다.
다음 조건을 모두 만족하면 for all :
- 모든 가 무한히 자주 방문된다.
- , .
- 보상이 유계다: .
JJS 일반화 — 모든 Model-Free RL을 하나의 틀로
Jaakkola, Jordan, Singh 1994는 같은 구조가 Q-Learning에만 국한되지 않음을 보였다.
| 알고리즘 | Operator | 특성 |
|---|---|---|
| Q-Learning | (Bellman optimality) | off-policy |
| SARSA | (현재 정책의 Bellman) | on-policy |
| TD(0) | for | on-policy, 1-step bootstrap |
| TD() | (geometric average) | on-policy, n-step |
모두 같은 형태다.
가 -contraction이고, noise가 zero-mean bounded variance이며, RM 학습률 조건이 만족되면, 어떤 알고리즘이든 fixed point로 수렴한다. 수렴의 속도는 noise의 분산에서 차이가 난다. TD의 noise는 한 step 보상에서만 오지만, MC의 noise는 전체 에피소드 return에서 온다. 낮은 분산 대신 높은 bias, 높은 분산 대신 낮은 bias — bias–variance tradeoff가 바로 여기서 나온다.
트레이드오프 — Maximization Bias와 Double Q-Learning
수렴이 보장된다고 해서 Q-Learning이 올바른 값으로 수렴한다는 뜻은 아니다. **최대화 편향(maximization bias)**이 개입한다.
연산은 convex 함수다. Jensen 부등식에 의해,
추정 오차가 있는 에서 max를 취하면, 기댓값의 max보다 체계적으로 크다. 즉, Q-Learning의 TD target은 보다 지속적으로 낙관적이다.
Watkins–Dayan 정리는 Q-Learning이 로 수렴함을 보장하지만, 이 는 최대화 편향 아래서 추정된 값이다. 모든 action의 true value가 0인 환경에서도 Q-Learning은 양수 Q값으로 수렴하는 경향이 있다.
van Hasselt 2010의 해결책은 argmax와 evaluation을 두 독립적 Q 추정으로 분리하는 것이다.
가 행동을 선택하고, 가 그 행동을 평가한다. 와 가 충분히 독립적이면, 는 의 argmax 선택에 biased되지 않아 기댓값이 에 수렴한다. 편향 제거의 대가로 분산이 약간 증가하지만 실용적으로 수용 가능하다.
이 아이디어는 2016년 van Hasselt이 DQN에 재적용해 Double DQN으로 완성한다. tabular에서 자명해 보였던 “두 개의 Q”가 neural network parameterization에서 “main network + target network” 구조로 재설계됐다.
정리
- Q-Learning의 업데이트 규칙은 Bellman optimality operator 에 대한 stochastic approximation이다.
- 수렴 보장의 핵심은 세 가지다: 의 -contraction, noise의 zero-mean bounded variance, Robbins–Monro 학습률.
- SARSA, TD, MC는 operator 만 다를 뿐 같은 구조를 공유한다. 알고리즘 간 차이는 bias와 variance의 tradeoff로 설명된다.
- 수렴하더라도 maximization bias가 Q값을 과장한다. Double Q-Learning은 argmax와 evaluation을 분리해 이 편향을 제거한다.
수렴 정리가 보장하는 것은 “학습이 멈추는 지점”이고, 최대화 편향은 “그 지점이 얼마나 낙관적인지”를 결정한다. 두 문제를 따로 이해해야 Q-Learning을 제대로 쓸 수 있다.