AI 2026.05.05 · 15 min
Advanced Mechanistic Interpretability Deep Dive · 6
LLM의 행동은 벡터로 쓰고 지울 수 있는가
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.
총 3개의 글
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.
인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.
Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.