AI 2026.05.03 · 12 min
Advanced Llm Alignment Deep Dive · 5
AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지
인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.