tag

#rlhf

총 10개의 글

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 5

GRPO는 어떻게 PPO의 Critic을 없앴는가

PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Alignment Deep Dive · 1

LLM은 왜 처음부터 Misaligned인가

Next-token 예측이 인간 의도와 어긋나는 근본 원인부터 Bradley-Terry 모델, Plackett-Luce 랭킹, Alignment Tax까지 — Pretraining의 한계가 RLHF를 필연으로 만드는 이유를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 2

RLHF는 왜 세 단계여야 하는가

SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 3

DPO는 어떻게 Reward Model 없이 정책을 최적화하는가

KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 4

DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 5

AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지

인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

RLHF는 왜 길고, 느리고, 불안정한가

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 3

PPO는 왜 TRPO를 대체했는가

2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.

AI 2026.04.28 · 12 min Advanced Calculus Optimization Deep Dive · 6

제약 최적화는 왜 AI의 핵심 언어인가

라그랑주 승수법부터 KKT 조건, 라그랑지안 쌍대성, 엔벨로프 정리, RLHF까지 — 제약 최적화의 수학적 구조가 AI 알고리즘 설계를 어떻게 결정하는지 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 7

Offline RL부터 LLM 정렬까지 — 현대 RL의 공통 철학

OOD 문제를 pessimism으로 해결하는 CQL, BC 정규화를 쓰는 TD3+BC, 상상 롤아웃으로 샘플 효율을 높이는 Dreamer, 그리고 RLHF·DPO가 공유하는 하나의 원칙을 추적한다.