DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가
DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.
- 01 LLM은 왜 처음부터 Misaligned인가
- 02 RLHF는 왜 세 단계여야 하는가
- 03 DPO는 어떻게 Reward Model 없이 정책을 최적화하는가
- 04 DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가
- 05 AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지
- 06 RLHF는 왜 길고, 느리고, 불안정한가
- 07 LLM 의 Safety 는 하나의 벡터로 요약될 수 있는가
DPO(Rafailov 2023)는 PPO 파이프라인을 단 하나의 log-sigmoid 손실로 압축했다. 그러나 그 손실 함수 안에는 Bradley-Terry 확률 모델이라는 가정이 숨어 있고, 이 가정이 균열되는 순간 DPO도 함께 흔들린다. IPO, KTO, SimPO, ORPO, GRPO — 이 다섯 기법은 각각 DPO의 서로 다른 균열을 겨냥한 패치다. 공통 분모는 무엇이고, 각자 어떤 가정을 새로 도입하는가?
DPO가 깨지는 지점
DPO의 손실은 다음과 같다.
여기서 . 이 식은 Bradley-Terry 모델 를 MLE로 최적화한 결과다.
문제는 가 unbounded라는 것이다. 모델은 로 밀어붙이면 손실을 계속 줄일 수 있다. 이는 두 가지 상황에서 특히 심각해진다. 첫째, SFT 출력처럼 결정적 선호(항상 이기는 쪽이 고정된)가 많은 데이터에서 gradient가 폭발한다. 둘째, 긴 시퀀스는 짧은 시퀀스보다 의 절댓값이 커서 길이 편향이 생긴다. 셋째, reference model을 메모리에 올려야 하는 운용 비용이 항상 따라붙는다.
IPO — target을 bounded로 고정한다
Azar et al.(2023)의 IPO는 log-sigmoid를 squared loss로 교체한다.
target 는 Bradley-Terry 해석에서 약 62% 선호 확률에 해당한다(). DPO의 와 달리, IPO는 를 유한한 값으로 강제 수렴시킨다.
이면 .
squared loss 의 gradient는 로 의 선형 함수다. DPO의 와 달리 exponential divergence가 없으므로, 가 bounded이면 gradient도 bounded.
KTO — 심리학으로 unpaired 데이터를 처리한다
DPO와 IPO는 모두 쌍을 요구한다. Ethayarajh et al.(2024)의 KTO는 각 샘플에 “desirable/undesirable” 라벨만 붙인 unpaired 데이터로 작동한다.
이론적 근거는 Kahneman-Tversky의 prospect theory다. 인간은 기준점 대비 이득은 오목하게(diminishing returns), 손실은 볼록하게(loss aversion) 평가한다. KTO는 이를 비대칭 value function으로 인코딩한다.
여기서 (, concave), (, convex). 원래 Kahneman-Tversky 파라미터는 , .
DPO가 이라는 상대 차이를 사용하는 반면, KTO는 각 샘플의 reference point 대비 절댓값을 사용하므로 쌍이 필요 없다.
SimPO와 ORPO — reference model을 제거한다
SimPO(Meng et al., 2024)는 두 가지를 동시에 한다. Reference model을 제거하고, 길이 편향을 명시적으로 교정한다.
는 per-token 평균 log-likelihood다. Park et al.(2024)의 분석에 따르면 DPO의 reference model이 사실상 length normalization 역할을 했다. SimPO는 이를 명시적 나누기로 대체하면서 frozen 모델 하나를 메모리에서 내린다. margin 는 선호 판단의 threshold를 조정한다.
ORPO(Hong et al., 2024)는 더 나아가 SFT 단계와 preference training을 통합한다.
log-odds 는 probability의 선형 스케일(logit)이다. 첫 항이 “정답을 배운다”면, 두 번째 항이 “선호도를 구분한다”. 3단계 파이프라인(SFT → RM → DPO)을 단일 forward pass로 압축하므로 계산량이 대폭 줄어든다.
GRPO — PPO의 critic을 group 통계로 교체한다
GRPO(DeepSeek, Shao et al., 2024)는 preference 데이터 없이 reward 신호로 학습하는 방법이다. PPO가 critic network 로 advantage를 추정하는 것과 달리, GRPO는 같은 프롬프트에서 개의 샘플을 뽑아 그 그룹 통계를 baseline으로 사용한다.
.
이고, (같은 프롬프트에서 독립 샘플이므로). 따라서 .
표준화는 variance를 1로 고정해 gradient scale을 안정화한다. Critic NN이 없으므로 70B 모델 기준 메모리를 약 40% 절감한다. DeepSeek-R1은 이 구조에 Process Reward Model(PRM)을 결합해 수학·코드 reasoning을 훈련했다.
트레이드오프
다섯 기법이 각각 해결한 문제와 새로 도입한 제약을 정리한다.
IPO: overfit 방지 ↑, reference model 여전히 필요, target 의 이론적 정당화 부족.
KTO: unpaired 데이터 활용 ↑, annotation cost ↓, 하지만 loss aversion 파라미터()가 task마다 다를 수 있고 LLM에 prospect theory를 적용하는 이론적 근거가 약하다.
SimPO: memory ↓(reference 제거), length bias 완전 해결. 단, reference model의 domain adaptation 역할이 함께 사라진다. domain-specific task에서는 DPO가 나을 수 있다.
ORPO: 파이프라인 단순화 ↑, 효율 ~4배. “정답이면서 비선호”인 샘플에서 SFT signal과 OR signal이 충돌할 수 있다.
GRPO: critic 제거 ↑, reasoning task에 강함. 그룹 내 모든 reward가 동일하면 advantage = 0 → gradient 없음. absolute reward가 중요한 task에는 PPO가 유리할 수 있다.
정리
- DPO의 두 균열은 unbounded (IPO가 패치)와 reference model 의존(SimPO·ORPO·GRPO가 제거)이다.
- IPO → squared loss로 overfit 방지, target 로 bounded convergence.
- KTO → unpaired 라벨만으로 학습, 비대칭 페널티로 safety 유리.
- SimPO → reference 제거 + 길이 정규화, ORPO → SFT와 preference를 단일 loss로.
- GRPO → group baseline으로 critic을 empirical statistics로 대체, 수학·코드 reasoning에 적합.
다섯 기법이 공유하는 하나의 방향이 있다 — reference model이라는 암묵적 의존을 점진적으로 걷어내는 것. 그 끝에 있는 질문은 “baseline 없이 alignment가 가능한가”이다.