AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지

인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.

RLHF는 강력하지만 병목이 있다 — 인간 라벨러다. 수만 개의 preference pair를 수작업으로 수집해야 한다면, 모델이 커질수록 alignment 비용은 폭발한다. 이 챕터들이 공유하는 질문은 하나다: AI 자신이 감독자가 될 수 있는가?

헌법을 쥐어준 모델 — SL-CAI

Bai et al. (2022)의 핵심 통찰은 역설적으로 단순하다. 모델이 충분히 크다면, 자기 출력의 문제를 스스로 인식하고 수정할 수 있다.

Constitutional AI는 명시적 원칙들의 집합 $\mathcal{C} = \{p_1, p_2, \ldots, p_K\}$ 를 모델에게 주고, 세 단계를 반복한다.

초기 응답 $y_0$ 생성
각 원칙 $p_k$ 에 대해 self-critique: $c = \text{Model}(\text{"Does } y_0 \text{ violate } p_k\text{?"})$
Critique를 반영해 $y_1$ 생성 후 SFT:

L_{\text{SL-CAI}} = -\mathbb{E}_{(x,\, y_1) \in \mathcal{D}_{\text{revised}}}\!\left[\log \pi_\theta(y_1 \mid x)\right]

이 루프는 인간 라벨러를 전혀 쓰지 않는다. Bai et al.의 실증에 따르면, self-critique → revise 과정이 harmlessness를 약 30~~45% 향상시킨다. 생성된 $(x, y_1)$ 쌍의 품질은 RLHF 인간 라벨 기준의 80~~95% 수준이다.

✎ 트레이드오프

SL-CAI는 reward signal 없이 SFT만으로 원칙을 강제한다. 모델이 critique에서 “위반” 을 인식해도 revision에서 여전히 문제가 재현될 수 있다 — specification gaming이다. PPO나 DPO와 달리 원칙을 명시적 규칙으로 강제하는 메커니즘이 없기 때문이다. 이 한계가 RLAIF로 이어진다.

AI가 preference를 판정한다 — RLAIF

Lee et al. (2024)는 SL-CAI의 다음 단계를 완성한다. 인간이 “어느 응답이 더 나은가”를 판정하는 대신, AI judge가 그 역할을 맡는다. 파이프라인 자체는 RLHF와 동일하다:

\min_\phi \; -\mathbb{E}_i\!\left[\log \sigma(r_\phi(x_i, y_{i,w}) - r_\phi(x_i, y_{i,l}))\right]

단, preference label을 인간이 아닌 AI judge가 생성한다. 결과는 놀랍다. Lee 2024의 실증에서 RLAIF의 win rate는 summarization에서 47%, dialogue에서 52%로 RLHF와 거의 동등하다.

\left|Q_{\text{RLAIF}} - Q_{\text{RLHF}}\right| \leq \delta \approx 5\%

그러나 AI judge에는 고유한 편향이 있다. 긴 응답을 선호하는 length bias, 특정 스타일을 선호하는 style bias가 RM 학습을 통해 policy로 전파된다. Constitutional judge는 명시적 원칙으로 판단 공간을 제약해 이 bias를 완화하지만 완전히 제거하지는 못한다.

스스로 보상을 설계하는 모델 — Self-Rewarding

Yuan et al. (2024)은 한 걸음 더 나아간다. AI judge가 별도 모델일 필요가 없다. 같은 모델이 policy와 judge를 동시에 수행한다.

각 iteration $i$ 에서 모델 $\theta_i$ 는 두 응답 $y_a, y_b$ 를 생성하고, 동시에 자신이 judge가 되어 preference를 판정한다. 그 preference로 DPO를 돌린다:

\min_\theta \; -\mathbb{E}\!\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_a \mid x)}{\pi_{\mathrm{ref}}(y_a \mid x)} - \beta \log \frac{\pi_\theta(y_b \mid x)}{\pi_{\mathrm{ref}}(y_b \mid x)}\right)\right]

수렴 조건은 하나다: judge 정확도 > 50%. 비록 55%에 불과해도, systematic bias가 directional improvement를 만들어낸다. Yuan 2024에서 Llama-2-70B는 3 iteration 안에 수렴한다.

Iteration	성능 (human eval)
0 (SFT)	42.7%
1	65.4%
2	71.3%
3	72.0% (수렴)

수렴 패턴은 로그적이다 — iteration 0→1에서 +22.7%, 2→3에서 +0.7%. 그리고 여기에 real risk가 있다. Length bias가 있는 judge는 iteration이 거듭될수록 점점 더 긴 응답을 생성하도록 policy를 밀어붙인다. Goodhart’s law의 전형적 발현이다.

약한 감독자가 강한 모델을 align할 수 있는가

세 챕터가 공유하는 더 깊은 질문이 있다: 감독자가 모델보다 덜 능력있어도 alignment가 작동하는가?

Scalable Oversight 이론(Irving 2018, Christiano 2018, Burns 2023)은 이 질문에 세 가지 각도로 답한다.

Debate: 두 AI가 서로 상반된 주장을 펼치고 인간 judge가 판정한다. 핵심 직관 — judge가 도메인 전문가가 아니어도, “어느 쪽 주장이 더 설득력 있는가”는 평가할 수 있다. 반복하면 거짓 주장을 지속적으로 방어하기 어려워져 진실에 수렴한다.

Amplification: $H^{(0)}$ (인간) + AI → $H^{(1)}$ , $H^{(1)}$ + AI → $H^{(2)}$ , 반복. 각 단계에서 인간의 감독 능력이 확장된다. 이론적으로 arbitrary strong AI도 oversee 가능하다는 주장이지만, capability ceiling은 open problem으로 남는다.

Weak-to-Strong (Burns 2023): 가장 직접적이고 실증적이다.

명제 1 · Weak-to-Strong Recovery

Weak supervisor accuracy $a_w$ , strong student potential $a_s$ 일 때, weak supervision으로 학습한 strong student의 최종 정확도는 다음과 같다.

$a_{s|w} = a_w + \alpha(a_s - a_w), \quad \alpha \approx 0.6 \sim 0.8$

▷ 증명

Weak supervisor의 label $y_w$ 는 noisy하지만 informative (ground truth와 양의 상관). Strong student $\pi_s$ 는 충분한 capacity를 보유하므로, SGD 과정에서 noise는 평균적으로 상쇄되고 signal을 추출한다. 정보이론적으로:

$\mathbb{E}_{y_s}\!\left[\log \pi_{\theta^*}(y_s \mid x)\right] \geq \mathbb{E}_{y_w}\!\left[\log \pi_{\theta^*}(y_w \mid x)\right] - O(H(y_w, y_s))$

Burns 2023 실험에서 GPT-2 (60% 정확도)로 GPT-4 수준 모델을 학습했을 때 80% 정확도가 달성됐다 ( $\alpha \approx 0.67$ ). $\square$

∎

⚠ 트레이드오프

$\alpha \approx 0.67$ 은 여전히 30%의 gap을 남긴다. Alignment-critical task — jailbreak 방어, 권력 추구 행동 감지 — 에서 30% 실패는 심각한 문제다. Burns 2023의 실험은 synthetic classification task에 국한되어 있어, safety-critical 시나리오에서의 recovery fraction은 미측정이다.

정리

SL-CAI부터 Weak-to-Strong까지, 이 챕터들은 하나의 핵심 주장을 다른 각도에서 반복한다 — AI가 감독자 역할을 부분적으로 수행할 수 있다.

SL-CAI: 명시적 원칙(constitution)으로 인간 라벨 없이 alignment 데이터를 생성한다.
RLAIF: AI judge의 preference가 인간 preference와 ~75% 상관되어, RM + PPO 파이프라인을 그대로 구동할 수 있다.
Self-Rewarding: 같은 모델이 policy와 judge를 겸하면서 iterative self-improvement가 로그적으로 수렴한다.
Scalable Oversight: 약한 감독자도 강한 모델의 capability gap을 60~80% 회복시킬 수 있다.

그러나 공통된 한계도 있다. 어느 방법도 감독자의 편향을 완전히 제거하지 못하고, 감독자가 평가할 수 없는 영역(specialized domain, adversarial robustness)에서는 인간 피드백이 여전히 필수다. AI self-supervision은 scalable의 답이지, alignment의 완전한 답이 아니다.

REF

Bai et al. · 2022 · Constitutional AI: Harmlessness from AI Feedback · arXiv

REF

Lee et al. · 2024 · RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback · ICML