← all posts
AI 2026.05.05 · 13 min read Advanced

뉴런 하나가 여러 개념을 담는 이유 — Superposition 이론

Polysemantic 뉴런의 근본 원인부터 Compressed Sensing과의 동형성, 중요도-희소성 phase transition까지, 신경망이 정보를 중첩 인코딩하는 원리를 추적한다.


GPT-2의 특정 뉴런이 “고양이”가 나올 때, “바퀴”를 설명할 때, 문자 “P”의 형태가 있을 때 모두 강하게 반응한다면, 그 뉴런의 의미를 한 문장으로 설명할 수 없다. 이것이 polysemanticity — 신경망 해석가능성 연구의 가장 근본적인 장벽이다. 그런데 이것은 버그인가, 아니면 설계인가?

Polysemanticity의 출발점

뉴런 기반 해석은 “각 뉴런이 하나의 개념을 담당한다”는 가정 위에 서 있다. 이것을 monosemanticity라 한다. 그러나 Olah et al. (2020)의 실증 연구는 Inception, CLIP, GPT-2 등의 대규모 모델에서 polysemanticity가 광범위하게 나타남을 보였다. 단일 뉴런의 역할을 정의하려는 시도는 반복적으로 좌절됐다.

형식적으로, 뉴런 nn이 polysemantic이라는 것은 상호 배타적이지 않은 여러 개념 C1,,CkC_1, \ldots, C_k (k2k \geq 2)가 존재해서

ExCi[σ(wx+b)]>θfor all i\mathbb{E}_{x \in C_i}[\sigma(w^\top x + b)] > \theta \quad \text{for all } i

를 만족하는 경우다. 여기서 θ\theta는 활성화 임계값이다. 직관적으로, 이 뉴런은 “어느 하나를 담당한다”고 말할 수 없다.

Superposition — 중첩의 수학

Elhage et al. (2022)은 polysemanticity가 superposition이라는 원리의 귀결임을 toy model로 보였다. 구조는 단순하다:

x^=WWx,WRm×n,m>n\hat{x} = W W^\top x, \quad W \in \mathbb{R}^{m \times n}, \quad m > n

mm개의 특성을 nn개의 뉴런에 압축하고 (m>nm > n), 다시 복구한다. 완벽한 복구는 불가능하지만, WW의 열들이 거의 직교하면 재구성 오차를 최소화할 수 있다.

명제 1 · Superposition의 최적성

희소한 특성(sparsity p<1p < 1)과 중요도 IiI_i가 주어질 때, toy superposition model의 최적 해는 WW의 열들이 거의 직교하도록 배치되는 것이다.

▷ 증명

그람 행렬 G=WW=I+EG = W^\top W = I + E (오프 대각 간섭 행렬 EE)를 고려한다. 중요도-가중 손실은

L=iIiE[(xix^i)2]\mathcal{L} = \sum_i I_i \cdot \mathbb{E}[(x_i - \hat{x}_i)^2]

특성이 희소하면 두 특성이 동시에 활성화될 확률은 pipjp_i \cdot p_j로 낮다. 간섭 비용은 IiIjpipj(WW)ijI_i \cdot I_j \cdot p_i \cdot p_j \cdot (W^\top W)_{ij}에 비례하므로, EE의 오프 대각을 작게 유지하는 것이 최적이다. m>nm > n이라 완전한 직교는 불가능하지만, 가능한 한 직교에 가까운 배치가 최솟값을 달성한다.

이 최적 배치의 기하학은 우아하다. mm개 특성을 nn차원에 배치할 때, Welch bound가 이론적 최소 간섭을 결정한다:

minmaxijwi,wjmnn(m1)\min \max_{i \neq j} |\langle w_i, w_j \rangle| \geq \sqrt{\frac{m-n}{n(m-1)}}

m=n+1m = n + 1이면 이 한계는 정다면체 배치로 달성된다. 4개 특성을 3D에 넣을 때 최적 각도는 arccos(1/3)109.47°\arccos(-1/3) \approx 109.47°인 정사면체 배치다. 신경망은 이 구조를 자동으로 학습한다.

Compressed Sensing과의 동형성

여기서 이 이야기는 예상치 못한 방향으로 전개된다. Superposition unpacking은 사실 이미 잘 알려진 문제다.

Compressed Sensing(CS)은 m<nm < n인 측정 행렬 Φ\Phi로부터 kk-sparse 신호 xx를 복구하는 문제다:

y=Φx,recover x from yy = \Phi x, \quad \text{recover } x \text{ from } y

Superposition과의 대응은 정확하다: CS의 xx (신호) ↔ 특성, Φ\Phi (측정행렬) ↔ WW^\top (인코더), yy (측정값) ↔ zz (은닉 표현). CS의 Restricted Isometry Property(RIP)

(1δk)v22Φv22(1+δk)v22(1 - \delta_k)\|v\|_2^2 \leq \|\Phi v\|_2^2 \leq (1 + \delta_k)\|v\|_2^2

는 superposition의 “근-직교성” 조건과 동치에 가깝다. WW의 오프 대각 간섭이 작으면 연산자 norm Eop\|E\|_{\mathrm{op}}도 작아지고, RIP-like 조건이 성립한다.

이 동형성의 실용적 함의: Candes-Tao의 정리에 따르면, δ2k<210.414\delta_{2k} < \sqrt{2} - 1 \approx 0.414이면 L1 최소화(Basis Pursuit)가 유일한 sparse 복구를 보장한다. 신경망의 superposed 특성을 역으로 복구하는 데 CS의 모든 도구를 직접 사용할 수 있다는 뜻이다.

트레이드오프

Superposition은 용량 효율성(더 적은 뉴런으로 더 많은 특성 표현)을 얻는 대신, 해석가능성을 잃는다. 뉴런 단위 분석이 불가능해지며, 특성 복구에는 L1 최소화 같은 역문제 풀기가 필요하다. RIP 조건이 만족될 때만 이 복구가 이론적으로 보장된다.

중요도 · 희소성 · Phase Transition

어떤 특성이 superpose되고 어떤 특성이 monosemantic하게 유지되는가? Elhage et al. (2022)은 이것이 특성의 중요도희소성에 의해 결정됨을 보였다.

간섭 비용은 대략 IiIjpipjI_i \cdot I_j \cdot p_i \cdot p_j에 비례한다. 중요도가 높고 활성화 빈도도 높은 특성은 간섭 비용이 크므로 모노시맨틱하게 유지된다. 반대로, 중요도가 낮고 희소한 특성은 동시 활성화 확률 자체가 낮아 많은 특성을 superpose해도 실질적 간섭이 적다.

이 논리에서 phase transition이 나온다. 고정된 뉴런 개수 nn에서 특성들의 중요도 II와 희소성 pp가 균등하다면, 임계 용량은

mc=nIpm_c = \frac{n}{I \cdot p}

이다. m<mcm < m_c이면 거의 monosemantic, m>mcm > m_c이면 강한 polysemanticity가 나타난다. 이 전환은 toy model에서 매우 급격하지만, 실제 신경망에서는 더 부드럽게 나타난다 — 중요도와 희소성이 균등하지 않기 때문이다.

용량 scaling의 핵심 결과도 여기서 나온다:

mCnH(p)m^* \approx C \cdot n \cdot H(\mathbf{p})

희소성의 엔트로피 H(p)H(\mathbf{p})가 클수록(특성들이 더 희소할수록) 같은 nn개의 뉴런으로 더 많은 특성을 표현할 수 있다. 모델이 커질수록, 또는 데이터가 더 희소한 특성을 가질수록 superposition의 활용도가 높아진다.

정리

  • Polysemanticity는 버그가 아니라 mnm \gg n 상황에서 신경망이 선택하는 정보 압축 전략이다.
  • 최적 superposition 구조는 Welch bound가 정의하는 거의 직교한 배치이며, 기하학적으로 정다면체 구조를 이룬다.
  • Superposition unpacking은 Compressed Sensing의 역문제와 수학적으로 동형이며, RIP 조건 하에서 L1 최소화로 특성을 복구할 수 있다.
  • 어떤 특성이 monosemantic으로 유지되는지는 중요도 × 활성화 빈도에 의해 결정되며, 임계값 근방에서 phase transition이 발생한다.

뉴런 하나의 의미를 찾으려는 시도가 반복적으로 실패하는 것은 능력의 한계가 아니라, 신경망이 뉴런보다 더 큰 단위에 의미를 인코딩하기 때문이다. 다음 챕터에서는 이 superposition을 풀어내기 위한 Sparse Autoencoder(SAE) 접근을 다룬다.

REF
Elhage et al. · 2022 · Toy Models of Superposition · Anthropic