series · llm-alignment-deep-dive

📚 Llm Alignment Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.05.03 · 10 min Advanced Llm Alignment Deep Dive · 1

LLM은 왜 처음부터 Misaligned인가

Next-token 예측이 인간 의도와 어긋나는 근본 원인부터 Bradley-Terry 모델, Plackett-Luce 랭킹, Alignment Tax까지 — Pretraining의 한계가 RLHF를 필연으로 만드는 이유를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 2

RLHF는 왜 세 단계여야 하는가

SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 3

DPO는 어떻게 Reward Model 없이 정책을 최적화하는가

KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 4

DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 5

AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지

인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

RLHF는 왜 길고, 느리고, 불안정한가

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 7

LLM 의 Safety 는 하나의 벡터로 요약될 수 있는가

Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.