뉴런 하나가 여러 개념을 담는 이유 — Superposition 이론
Polysemantic 뉴런의 근본 원인부터 Compressed Sensing과의 동형성, 중요도-희소성 phase transition까지, 신경망이 정보를 중첩 인코딩하는 원리를 추적한다.
- 01 Mechanistic Interpretability는 무엇을 증명하는가
- 02 Transformer의 내부는 어떻게 작동하는가 — Mechanistic Interpretability 의 수학적 기초
- 03 In-Context Learning의 두 얼굴 — Lookup인가, 최적화인가
- 04 뉴런 하나가 여러 개념을 담는 이유 — Superposition 이론
- 05 SAE는 어떻게 신경망의 개념을 분리하는가
- 06 LLM의 행동은 벡터로 쓰고 지울 수 있는가
- 07 신경망을 해부할 수 있는가 — Mechanistic Interpretability의 세 장면
GPT-2의 특정 뉴런이 “고양이”가 나올 때, “바퀴”를 설명할 때, 문자 “P”의 형태가 있을 때 모두 강하게 반응한다면, 그 뉴런의 의미를 한 문장으로 설명할 수 없다. 이것이 polysemanticity — 신경망 해석가능성 연구의 가장 근본적인 장벽이다. 그런데 이것은 버그인가, 아니면 설계인가?
Polysemanticity의 출발점
뉴런 기반 해석은 “각 뉴런이 하나의 개념을 담당한다”는 가정 위에 서 있다. 이것을 monosemanticity라 한다. 그러나 Olah et al. (2020)의 실증 연구는 Inception, CLIP, GPT-2 등의 대규모 모델에서 polysemanticity가 광범위하게 나타남을 보였다. 단일 뉴런의 역할을 정의하려는 시도는 반복적으로 좌절됐다.
형식적으로, 뉴런 이 polysemantic이라는 것은 상호 배타적이지 않은 여러 개념 ()가 존재해서
를 만족하는 경우다. 여기서 는 활성화 임계값이다. 직관적으로, 이 뉴런은 “어느 하나를 담당한다”고 말할 수 없다.
Superposition — 중첩의 수학
Elhage et al. (2022)은 polysemanticity가 superposition이라는 원리의 귀결임을 toy model로 보였다. 구조는 단순하다:
개의 특성을 개의 뉴런에 압축하고 (), 다시 복구한다. 완벽한 복구는 불가능하지만, 의 열들이 거의 직교하면 재구성 오차를 최소화할 수 있다.
희소한 특성(sparsity )과 중요도 가 주어질 때, toy superposition model의 최적 해는 의 열들이 거의 직교하도록 배치되는 것이다.
그람 행렬 (오프 대각 간섭 행렬 )를 고려한다. 중요도-가중 손실은
특성이 희소하면 두 특성이 동시에 활성화될 확률은 로 낮다. 간섭 비용은 에 비례하므로, 의 오프 대각을 작게 유지하는 것이 최적이다. 이라 완전한 직교는 불가능하지만, 가능한 한 직교에 가까운 배치가 최솟값을 달성한다.
이 최적 배치의 기하학은 우아하다. 개 특성을 차원에 배치할 때, Welch bound가 이론적 최소 간섭을 결정한다:
이면 이 한계는 정다면체 배치로 달성된다. 4개 특성을 3D에 넣을 때 최적 각도는 인 정사면체 배치다. 신경망은 이 구조를 자동으로 학습한다.
Compressed Sensing과의 동형성
여기서 이 이야기는 예상치 못한 방향으로 전개된다. Superposition unpacking은 사실 이미 잘 알려진 문제다.
Compressed Sensing(CS)은 인 측정 행렬 로부터 -sparse 신호 를 복구하는 문제다:
Superposition과의 대응은 정확하다: CS의 (신호) ↔ 특성, (측정행렬) ↔ (인코더), (측정값) ↔ (은닉 표현). CS의 Restricted Isometry Property(RIP)
는 superposition의 “근-직교성” 조건과 동치에 가깝다. 의 오프 대각 간섭이 작으면 연산자 norm 도 작아지고, RIP-like 조건이 성립한다.
이 동형성의 실용적 함의: Candes-Tao의 정리에 따르면, 이면 L1 최소화(Basis Pursuit)가 유일한 sparse 복구를 보장한다. 신경망의 superposed 특성을 역으로 복구하는 데 CS의 모든 도구를 직접 사용할 수 있다는 뜻이다.
Superposition은 용량 효율성(더 적은 뉴런으로 더 많은 특성 표현)을 얻는 대신, 해석가능성을 잃는다. 뉴런 단위 분석이 불가능해지며, 특성 복구에는 L1 최소화 같은 역문제 풀기가 필요하다. RIP 조건이 만족될 때만 이 복구가 이론적으로 보장된다.
중요도 · 희소성 · Phase Transition
어떤 특성이 superpose되고 어떤 특성이 monosemantic하게 유지되는가? Elhage et al. (2022)은 이것이 특성의 중요도와 희소성에 의해 결정됨을 보였다.
간섭 비용은 대략 에 비례한다. 중요도가 높고 활성화 빈도도 높은 특성은 간섭 비용이 크므로 모노시맨틱하게 유지된다. 반대로, 중요도가 낮고 희소한 특성은 동시 활성화 확률 자체가 낮아 많은 특성을 superpose해도 실질적 간섭이 적다.
이 논리에서 phase transition이 나온다. 고정된 뉴런 개수 에서 특성들의 중요도 와 희소성 가 균등하다면, 임계 용량은
이다. 이면 거의 monosemantic, 이면 강한 polysemanticity가 나타난다. 이 전환은 toy model에서 매우 급격하지만, 실제 신경망에서는 더 부드럽게 나타난다 — 중요도와 희소성이 균등하지 않기 때문이다.
용량 scaling의 핵심 결과도 여기서 나온다:
희소성의 엔트로피 가 클수록(특성들이 더 희소할수록) 같은 개의 뉴런으로 더 많은 특성을 표현할 수 있다. 모델이 커질수록, 또는 데이터가 더 희소한 특성을 가질수록 superposition의 활용도가 높아진다.
정리
- Polysemanticity는 버그가 아니라 상황에서 신경망이 선택하는 정보 압축 전략이다.
- 최적 superposition 구조는 Welch bound가 정의하는 거의 직교한 배치이며, 기하학적으로 정다면체 구조를 이룬다.
- Superposition unpacking은 Compressed Sensing의 역문제와 수학적으로 동형이며, RIP 조건 하에서 L1 최소화로 특성을 복구할 수 있다.
- 어떤 특성이 monosemantic으로 유지되는지는 중요도 × 활성화 빈도에 의해 결정되며, 임계값 근방에서 phase transition이 발생한다.
뉴런 하나의 의미를 찾으려는 시도가 반복적으로 실패하는 것은 능력의 한계가 아니라, 신경망이 뉴런보다 더 큰 단위에 의미를 인코딩하기 때문이다. 다음 챕터에서는 이 superposition을 풀어내기 위한 Sparse Autoencoder(SAE) 접근을 다룬다.