LLM은 왜 처음부터 Misaligned인가
Next-token 예측이 인간 의도와 어긋나는 근본 원인부터 Bradley-Terry 모델, Plackett-Luce 랭킹, Alignment Tax까지 — Pretraining의 한계가 RLHF를 필연으로 만드는 이유를 추적한다.
ChatGPT가 RLHF로 “정렬된다”는 사실은 잘 알려져 있다. 그러나 왜 RLHF가 필요한가에 대한 이론적 토대는 종종 생략된다. Pretraining이 이미 세계 지식을 담았다면, 무엇이 문제인가? 그리고 그 문제를 해결하는 수학은 어디서 왔는가?
Pretraining의 목표와 인간 의도 사이의 간격
표준 LLM의 pretraining loss는 다음과 같다.
이 식은 웹 데이터의 다음 토큰 분포를 학습한다. 웹에는 문법적으로 완벽하고 설득력 있는 잘못된 정보, 매끄럽게 작성된 위험한 조언, 주류 편향이 담긴 텍스트가 뒤섞여 있다. 모델은 그 모든 것을 균등하게 학습한다.
Next-token loss를 최소화하는 모델도, 임의의 human-preferred task에서 우수할 필요는 없다.
가 의 empirical distribution에 수렴하더라도, human preference 분포 에서의 기대 손실
은 보장되지 않는다. 의 low-probability region에서 발생하는 human-preferred output이 존재한다면, 는 그 영역의 확률을 낮게 할당했을 것이다.
이것이 outer alignment failure다. 모델이 base objective를 완벽히 달성해도 인간 의도와 어긋날 수 있다. GPT-3가 few-shot 학습에 탁월하면서도 explicit instruction을 제대로 따르지 못했던 것은 이 간격의 구체적 증거다.
선호로부터 Reward를 추론하는 방법
인간 의도를 수학적으로 정의하는 한 가지 방법은 revealed preference다. Samuelson(1938)의 통찰 — 선택 행위 자체가 숨겨진 utility를 드러낸다는 것 — 은 RLHF의 이론적 토대가 된다.
preference 데이터를 다음과 같이 정의하자.
주어진 prompt 에서 (인간이 를 선택)이라는 관찰로부터, 관찰되지 않은 reward function 를 복원하는 것이 목표다.
이 학습 문제의 핵심 가정은 두 가지다. 첫째, 선호 관계가 complete하고 transitive하면, 그 선호를 설명하는 utility function이 존재한다 (Samuelson 1938). 둘째, 인간의 선택은 stochastic하며 다음과 같이 모델링된다.
Bradley-Terry: Logit Link의 정당성
위 식은 Bradley-Terry 모델(1952)이다. 왜 하필 sigmoid인가?
Luce(1959)의 choice axiom이 그 답이다. Independence of Irrelevant Alternatives(IIA) — 제3의 선택지가 추가되어도 두 대안 간 선호 확률의 비가 불변이어야 한다는 조건을 만족하면, logit form이 유일하게 결정된다.
Bradley-Terry의 negative log-likelihood 는 reward에 대해 strictly convex다. 이차 도함수 이 이를 보장한다. Global minimum이 유일하므로, gradient descent의 수렴이 보장된다.
한 가지 구조적 특징이 있다. Reward는 additive constant에 불변이다 — 과 는 동일한 preference를 생성한다. Reward는 절대값이 아닌 차이로만 정의된다.
Plackett-Luce: Pairwise를 넘어 Ranking으로
Bradley-Terry는 쌍만 다룬다. Plackett-Luce(1975)는 이를 개 응답의 ranking으로 일반화한다.
Bradley-Terry는 의 특수해다. Ranking의 정보론적 이점은 명확하다.
이면 ranking 하나가 약 7개의 pairwise comparison과 동등한 정보를 담는다. LLaMA-2와 Constitutional AI가 ranking 데이터를 사용하는 이유다. 다만 실제 라벨링 비용(cognitive load, 불일치 가능성)이 높아지는 trade-off가 따른다.
Alignment Tax와 KL Anchor
Preference learning으로 reward를 학습한 뒤 PPO로 정책을 최적화하면, 예상치 못한 현상이 생긴다. InstructGPT(Ouyang et al. 2022)는 RLHF 후 instruction following이 43% 향상된 반면, code generation은 약 7% 하락했다. 이것이 alignment tax다.
세 축 — Helpful, Honest, Harmless — 은 항상 일치하지 않는다. 안전을 우선할수록 도움이 될 수 있는 요청도 거부하고(over-refusal), 도움을 극대화하려 할수록 위험한 응답이 통과할 수 있다. Tax는 피할 수 없다. 다만 완화할 수 있다.
그 완화 메커니즘이 KL penalty다.
이 목표의 최적해는 다음과 같다.
가 크면 정책이 근처에 머물러 pretraining 지식이 보존된다. 가 작으면 reward 극대화 쪽으로 치우쳐 distribution shift가 심해진다. InstructGPT는 를 사용했다.
정리
- Pretraining loss의 최소화는 에의 수렴이다. Human preference 과의 간격이 outer alignment failure를 만든다.
- Revealed preference 이론은 쌍별 비교로부터 숨겨진 reward function을 복원하는 것을 정당화한다.
- Bradley-Terry(pairwise)와 Plackett-Luce(ranking)는 IIA 공리 아래 logit form으로 유일하게 결정된다.
- Alignment tax는 HHH 세 축의 충돌에서 비롯되며, KL penalty 를 통해 완화할 수 있지만 제거할 수는 없다.
Pretraining이 “무엇을 알고 있는가”를 결정한다면, alignment는 “무엇을 말해야 하는가”를 결정한다. 이 두 목표가 같지 않다는 사실 위에 RLHF의 모든 수학이 세워진다.