AI 2026.05.05 · 14 min
Advanced Mechanistic Interpretability Deep Dive · 1
Mechanistic Interpretability는 무엇을 증명하는가
해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.
총 1개의 글
해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.