AI 2026.05.05 · 15 min
Advanced Mechanistic Interpretability Deep Dive · 6
LLM의 행동은 벡터로 쓰고 지울 수 있는가
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.
총 1개의 글
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.