#model-editing · IQ Lab

AI 2026.05.05 · 15 min Advanced Mechanistic Interpretability Deep Dive · 6

Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.