AI 2026.05.05 · 15 min
Advanced Mechanistic Interpretability Deep Dive · 5
SAE는 어떻게 신경망의 개념을 분리하는가
초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.
총 2개의 글
초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.
IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.