tag

#sparse-autoencoder

총 2개의 글

AI 2026.05.05 · 15 min Advanced Mechanistic Interpretability Deep Dive · 5

초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 7

IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.