tag

#alignment

총 3개의 글

AI 2026.05.05 · 15 min Advanced Mechanistic Interpretability Deep Dive · 6

LLM의 행동은 벡터로 쓰고 지울 수 있는가

Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 5

AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지

인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

RLHF는 왜 길고, 느리고, 불안정한가

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.