Mechanistic Interpretability는 무엇을 증명하는가
해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.
총 7편 · 순서대로 읽기를 권장
해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.
Residual stream의 선형 구조부터 QK·OV 분해, Head Composition, Linear Representation Hypothesis까지 — Transformer 내부 메커니즘을 추적한다.
Induction head가 패턴을 복사하는 원리부터 Attention이 Gradient Descent와 수학적으로 동치임을 밝히고, Task Vector로 zero-shot 전이까지 이어지는 메커니즘을 추적한다.
Polysemantic 뉴런의 근본 원인부터 Compressed Sensing과의 동형성, 중요도-희소성 phase transition까지, 신경망이 정보를 중첩 인코딩하는 원리를 추적한다.
초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.
IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.