AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지
인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.
- 01 LLM은 왜 처음부터 Misaligned인가
- 02 RLHF는 왜 세 단계여야 하는가
- 03 DPO는 어떻게 Reward Model 없이 정책을 최적화하는가
- 04 DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가
- 05 AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지
- 06 RLHF는 왜 길고, 느리고, 불안정한가
- 07 LLM 의 Safety 는 하나의 벡터로 요약될 수 있는가
RLHF는 강력하지만 병목이 있다 — 인간 라벨러다. 수만 개의 preference pair를 수작업으로 수집해야 한다면, 모델이 커질수록 alignment 비용은 폭발한다. 이 챕터들이 공유하는 질문은 하나다: AI 자신이 감독자가 될 수 있는가?
헌법을 쥐어준 모델 — SL-CAI
Bai et al. (2022)의 핵심 통찰은 역설적으로 단순하다. 모델이 충분히 크다면, 자기 출력의 문제를 스스로 인식하고 수정할 수 있다.
Constitutional AI는 명시적 원칙들의 집합 를 모델에게 주고, 세 단계를 반복한다.
- 초기 응답 생성
- 각 원칙 에 대해 self-critique:
- Critique를 반영해 생성 후 SFT:
이 루프는 인간 라벨러를 전혀 쓰지 않는다. Bai et al.의 실증에 따르면, self-critique → revise 과정이 harmlessness를 약 3045% 향상시킨다. 생성된 쌍의 품질은 RLHF 인간 라벨 기준의 8095% 수준이다.
SL-CAI는 reward signal 없이 SFT만으로 원칙을 강제한다. 모델이 critique에서 “위반” 을 인식해도 revision에서 여전히 문제가 재현될 수 있다 — specification gaming이다. PPO나 DPO와 달리 원칙을 명시적 규칙으로 강제하는 메커니즘이 없기 때문이다. 이 한계가 RLAIF로 이어진다.
AI가 preference를 판정한다 — RLAIF
Lee et al. (2024)는 SL-CAI의 다음 단계를 완성한다. 인간이 “어느 응답이 더 나은가”를 판정하는 대신, AI judge가 그 역할을 맡는다. 파이프라인 자체는 RLHF와 동일하다:
단, preference label을 인간이 아닌 AI judge가 생성한다. 결과는 놀랍다. Lee 2024의 실증에서 RLAIF의 win rate는 summarization에서 47%, dialogue에서 52%로 RLHF와 거의 동등하다.
그러나 AI judge에는 고유한 편향이 있다. 긴 응답을 선호하는 length bias, 특정 스타일을 선호하는 style bias가 RM 학습을 통해 policy로 전파된다. Constitutional judge는 명시적 원칙으로 판단 공간을 제약해 이 bias를 완화하지만 완전히 제거하지는 못한다.
스스로 보상을 설계하는 모델 — Self-Rewarding
Yuan et al. (2024)은 한 걸음 더 나아간다. AI judge가 별도 모델일 필요가 없다. 같은 모델이 policy와 judge를 동시에 수행한다.
각 iteration 에서 모델 는 두 응답 를 생성하고, 동시에 자신이 judge가 되어 preference를 판정한다. 그 preference로 DPO를 돌린다:
수렴 조건은 하나다: judge 정확도 > 50%. 비록 55%에 불과해도, systematic bias가 directional improvement를 만들어낸다. Yuan 2024에서 Llama-2-70B는 3 iteration 안에 수렴한다.
| Iteration | 성능 (human eval) |
|---|---|
| 0 (SFT) | 42.7% |
| 1 | 65.4% |
| 2 | 71.3% |
| 3 | 72.0% (수렴) |
수렴 패턴은 로그적이다 — iteration 0→1에서 +22.7%, 2→3에서 +0.7%. 그리고 여기에 real risk가 있다. Length bias가 있는 judge는 iteration이 거듭될수록 점점 더 긴 응답을 생성하도록 policy를 밀어붙인다. Goodhart’s law의 전형적 발현이다.
약한 감독자가 강한 모델을 align할 수 있는가
세 챕터가 공유하는 더 깊은 질문이 있다: 감독자가 모델보다 덜 능력있어도 alignment가 작동하는가?
Scalable Oversight 이론(Irving 2018, Christiano 2018, Burns 2023)은 이 질문에 세 가지 각도로 답한다.
Debate: 두 AI가 서로 상반된 주장을 펼치고 인간 judge가 판정한다. 핵심 직관 — judge가 도메인 전문가가 아니어도, “어느 쪽 주장이 더 설득력 있는가”는 평가할 수 있다. 반복하면 거짓 주장을 지속적으로 방어하기 어려워져 진실에 수렴한다.
Amplification: (인간) + AI → , + AI → , 반복. 각 단계에서 인간의 감독 능력이 확장된다. 이론적으로 arbitrary strong AI도 oversee 가능하다는 주장이지만, capability ceiling은 open problem으로 남는다.
Weak-to-Strong (Burns 2023): 가장 직접적이고 실증적이다.
Weak supervisor accuracy , strong student potential 일 때, weak supervision으로 학습한 strong student의 최종 정확도는 다음과 같다.
Weak supervisor의 label 는 noisy하지만 informative (ground truth와 양의 상관). Strong student 는 충분한 capacity를 보유하므로, SGD 과정에서 noise는 평균적으로 상쇄되고 signal을 추출한다. 정보이론적으로:
Burns 2023 실험에서 GPT-2 (60% 정확도)로 GPT-4 수준 모델을 학습했을 때 80% 정확도가 달성됐다 ().
은 여전히 30%의 gap을 남긴다. Alignment-critical task — jailbreak 방어, 권력 추구 행동 감지 — 에서 30% 실패는 심각한 문제다. Burns 2023의 실험은 synthetic classification task에 국한되어 있어, safety-critical 시나리오에서의 recovery fraction은 미측정이다.
정리
SL-CAI부터 Weak-to-Strong까지, 이 챕터들은 하나의 핵심 주장을 다른 각도에서 반복한다 — AI가 감독자 역할을 부분적으로 수행할 수 있다.
- SL-CAI: 명시적 원칙(constitution)으로 인간 라벨 없이 alignment 데이터를 생성한다.
- RLAIF: AI judge의 preference가 인간 preference와 ~75% 상관되어, RM + PPO 파이프라인을 그대로 구동할 수 있다.
- Self-Rewarding: 같은 모델이 policy와 judge를 겸하면서 iterative self-improvement가 로그적으로 수렴한다.
- Scalable Oversight: 약한 감독자도 강한 모델의 capability gap을 60~80% 회복시킬 수 있다.
그러나 공통된 한계도 있다. 어느 방법도 감독자의 편향을 완전히 제거하지 못하고, 감독자가 평가할 수 없는 영역(specialized domain, adversarial robustness)에서는 인간 피드백이 여전히 필수다. AI self-supervision은 scalable의 답이지, alignment의 완전한 답이 아니다.