← all posts
AI 2026.05.03 · 11 min read Advanced

DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.


DPO(Rafailov 2023)는 PPO 파이프라인을 단 하나의 log-sigmoid 손실로 압축했다. 그러나 그 손실 함수 안에는 Bradley-Terry 확률 모델이라는 가정이 숨어 있고, 이 가정이 균열되는 순간 DPO도 함께 흔들린다. IPO, KTO, SimPO, ORPO, GRPO — 이 다섯 기법은 각각 DPO의 서로 다른 균열을 겨냥한 패치다. 공통 분모는 무엇이고, 각자 어떤 가정을 새로 도입하는가?

DPO가 깨지는 지점

DPO의 손실은 다음과 같다.

LDPO=E ⁣[logσ ⁣(βhπ)]L_\mathrm{DPO} = -\mathbb{E}\!\left[\log \sigma\!\left(\beta h_\pi\right)\right]

여기서 hπ=log(π/πref)(yw)log(π/πref)(yl)h_\pi = \log(\pi/\pi_\mathrm{ref})(y_w) - \log(\pi/\pi_\mathrm{ref})(y_l). 이 식은 Bradley-Terry 모델 p(ywyl)=σ(βhπ)p(y_w \succ y_l) = \sigma(\beta h_\pi)를 MLE로 최적화한 결과다.

문제는 logσ()\log \sigma(\cdot)가 unbounded라는 것이다. 모델은 hπ+h_\pi \to +\infty로 밀어붙이면 손실을 계속 줄일 수 있다. 이는 두 가지 상황에서 특히 심각해진다. 첫째, SFT 출력처럼 결정적 선호(항상 이기는 쪽이 고정된)가 많은 데이터에서 gradient가 폭발한다. 둘째, 긴 시퀀스는 짧은 시퀀스보다 logπ(y)\log \pi(y)의 절댓값이 커서 길이 편향이 생긴다. 셋째, reference model을 메모리에 올려야 하는 운용 비용이 항상 따라붙는다.

IPO — target을 bounded로 고정한다

Azar et al.(2023)의 IPO는 log-sigmoid를 squared loss로 교체한다.

LIPO=E ⁣[(hπ12β)2]L_\mathrm{IPO} = \mathbb{E}\!\left[\left(h_\pi - \frac{1}{2\beta}\right)^2\right]

target 1/(2β)1/(2\beta)는 Bradley-Terry 해석에서 약 62% 선호 확률에 해당한다(σ(1/2)0.622\sigma(1/2) \approx 0.622). DPO의 hπh_\pi \to \infty와 달리, IPO는 hπh_\pi를 유한한 값으로 강제 수렴시킨다.

명제 1 · IPO gradient boundedness

hπM|h_\pi| \leq M이면 θLIPO2(M+1/(2β))hπ|\nabla_\theta L_\mathrm{IPO}| \leq 2(M + 1/(2\beta)) \cdot \|\nabla h_\pi\|_\infty.

▷ 증명

squared loss (hc)2(h - c)^2의 gradient는 2(hc)2(h - c)hh의 선형 함수다. DPO의 logσ()\log\sigma(\cdot)와 달리 exponential divergence가 없으므로, hh가 bounded이면 gradient도 bounded. \square

KTO — 심리학으로 unpaired 데이터를 처리한다

DPO와 IPO는 모두 (x,yw,yl)(x, y_w, y_l) 쌍을 요구한다. Ethayarajh et al.(2024)의 KTO는 각 샘플에 “desirable/undesirable” 라벨만 붙인 unpaired 데이터로 작동한다.

이론적 근거는 Kahneman-Tversky의 prospect theory다. 인간은 기준점 대비 이득은 오목하게(diminishing returns), 손실은 볼록하게(loss aversion) 평가한다. KTO는 이를 비대칭 value function으로 인코딩한다.

LKTO=Edes[v(x)]+λEudes[v(x)],x=βlog(π/πref)zrefL_\mathrm{KTO} = -\mathbb{E}_\mathrm{des}[v(x)] + \lambda\, \mathbb{E}_\mathrm{udes}[v(x)], \quad x = \beta\log(\pi/\pi_\mathrm{ref}) - z_\mathrm{ref}

여기서 v(z)=zαv(z) = z^\alpha (z0z \geq 0, concave), v(z)=λ(z)βv(z) = -\lambda(-z)^\beta (z<0z < 0, convex). 원래 Kahneman-Tversky 파라미터는 α=β=0.88\alpha = \beta = 0.88, λ=2.25\lambda = 2.25.

DPO가 hwhlh_w - h_l이라는 상대 차이를 사용하는 반면, KTO는 각 샘플의 reference point 대비 절댓값을 사용하므로 쌍이 필요 없다.

SimPO와 ORPO — reference model을 제거한다

SimPO(Meng et al., 2024)는 두 가지를 동시에 한다. Reference model을 제거하고, 길이 편향을 명시적으로 교정한다.

LSimPO=E ⁣[logσ ⁣(βywlogπ(yw)βyllogπ(yl)γ)]L_\mathrm{SimPO} = -\mathbb{E}\!\left[\log\sigma\!\left(\frac{\beta}{|y_w|}\log\pi(y_w) - \frac{\beta}{|y_l|}\log\pi(y_l) - \gamma\right)\right]

logπ(y)/y\log\pi(y) / |y|는 per-token 평균 log-likelihood다. Park et al.(2024)의 분석에 따르면 DPO의 reference model이 사실상 length normalization 역할을 했다. SimPO는 이를 명시적 나누기로 대체하면서 frozen 모델 하나를 메모리에서 내린다. margin γ\gamma는 선호 판단의 threshold를 조정한다.

ORPO(Hong et al., 2024)는 더 나아가 SFT 단계와 preference training을 통합한다.

LORPO=logπ(yw)+λ(logσ(logodds(yw)logodds(yl)))L_\mathrm{ORPO} = -\log\pi(y_w) + \lambda \cdot \left(-\log\sigma(\log\mathrm{odds}(y_w) - \log\mathrm{odds}(y_l))\right)

log-odds =logπ(y)log(1π(y))= \log\pi(y) - \log(1-\pi(y))는 probability의 선형 스케일(logit)이다. 첫 항이 “정답을 배운다”면, 두 번째 항이 “선호도를 구분한다”. 3단계 파이프라인(SFT → RM → DPO)을 단일 forward pass로 압축하므로 계산량이 대폭 줄어든다.

GRPO — PPO의 critic을 group 통계로 교체한다

GRPO(DeepSeek, Shao et al., 2024)는 preference 데이터 없이 reward 신호로 학습하는 방법이다. PPO가 critic network V(s)V(s)로 advantage를 추정하는 것과 달리, GRPO는 같은 프롬프트에서 GG개의 샘플을 뽑아 그 그룹 통계를 baseline으로 사용한다.

Ai=rirˉGσG+ϵA_i = \frac{r_i - \bar{r}_G}{\sigma_G + \epsilon}
명제 2 · Group baseline unbiasedness

E[A^i]=Qπ(x,yi)Vπ(x)=Aπ(yi)\mathbb{E}[\hat{A}_i] = Q^\pi(x, y_i) - V^\pi(x) = A^\pi(y_i).

▷ 증명

E[ri]=Qπ(x,yi)\mathbb{E}[r_i] = Q^\pi(x, y_i)이고, E[rˉG]=(1/G)jQπ(x,yj)=Vπ(x)\mathbb{E}[\bar{r}_G] = (1/G)\sum_j Q^\pi(x, y_j) = V^\pi(x) (같은 프롬프트에서 독립 샘플이므로). 따라서 E[A^i]=QπVπ=Aπ(yi)\mathbb{E}[\hat{A}_i] = Q^\pi - V^\pi = A^\pi(y_i). \square

표준화는 variance를 1로 고정해 gradient scale을 안정화한다. Critic NN이 없으므로 70B 모델 기준 메모리를 약 40% 절감한다. DeepSeek-R1은 이 구조에 Process Reward Model(PRM)을 결합해 수학·코드 reasoning을 훈련했다.

트레이드오프

다섯 기법이 각각 해결한 문제와 새로 도입한 제약을 정리한다.

기법별 트레이드오프

IPO: overfit 방지 ↑, reference model 여전히 필요, target 1/(2β)1/(2\beta)의 이론적 정당화 부족.

KTO: unpaired 데이터 활용 ↑, annotation cost ↓, 하지만 loss aversion 파라미터(λ,α\lambda, \alpha)가 task마다 다를 수 있고 LLM에 prospect theory를 적용하는 이론적 근거가 약하다.

SimPO: memory ↓(reference 제거), length bias 완전 해결. 단, reference model의 domain adaptation 역할이 함께 사라진다. domain-specific task에서는 DPO가 나을 수 있다.

ORPO: 파이프라인 단순화 ↑, 효율 ~4배. “정답이면서 비선호”인 샘플에서 SFT signal과 OR signal이 충돌할 수 있다.

GRPO: critic 제거 ↑, reasoning task에 강함. 그룹 내 모든 reward가 동일하면 advantage = 0 → gradient 없음. absolute reward가 중요한 task에는 PPO가 유리할 수 있다.

정리

  • DPO의 두 균열은 unbounded hπh_\pi(IPO가 패치)와 reference model 의존(SimPO·ORPO·GRPO가 제거)이다.
  • IPO → squared loss로 overfit 방지, target 1/(2β)1/(2\beta)로 bounded convergence.
  • KTO → unpaired 라벨만으로 학습, 비대칭 페널티로 safety 유리.
  • SimPO → reference 제거 + 길이 정규화, ORPO → SFT와 preference를 단일 loss로.
  • GRPO → group baseline으로 critic을 empirical statistics로 대체, 수학·코드 reasoning에 적합.

다섯 기법이 공유하는 하나의 방향이 있다 — reference model이라는 암묵적 의존을 점진적으로 걷어내는 것. 그 끝에 있는 질문은 “baseline 없이 alignment가 가능한가”이다.