Transformer는 “행렬 네 개와 softmax 하나”로 이루어진 기계다. 그런데 이 단순한 구조 위에 역전파의 VJP, 배치 정규화의 정사영, Lipschitz 제약, 위치 인코딩의 회전 군, 그리고 고차원 랜덤 스펙트럼 법칙이 켜켜이 쌓인다. 이 챕터의 여섯 주제가 공유하는 하나의 철학은 무엇인가?
분산을 제어하라 — Attention과 역전파의 공통 언어
Scaled dot-product attention의 핵심 수식은 다음과 같다.
Attention(Q,K,V)=softmax(dkQK⊤)V
q,k의 각 성분이 평균 0, 분산 1인 독립 난수라면 내적 q⋅k의 분산은
Var(q⋅k)=i=1∑dkVar(qiki)=dk
로 차원에 선형 비례한다. dk로 나누면 분산이 1로 돌아온다. 이 정규화가 없으면 softmax 입력이 커지면서 출력이 원-핫에 가까워지고, 야코비안
이고, Attention의 역방향은 Vˉ=A⊤Oˉ, Qˉ=SˉK/dk, Kˉ=Sˉ⊤Q/dk로 전개된다. 리버스 모드 자동미분은 야코비안 J를 명시적으로 구성하지 않고 J⊤yˉ만 계산한다 — 파라미터 수 ×1 시간에 전체 그래디언트를 얻는 이유다.
✎ 트레이드오프: 메모리 vs 계산
Attention backward는 A∈RS×S를 저장해야 하므로 O(S2) 메모리가 필요하다. FlashAttention은 블록별 계산으로 A를 저장하지 않아 메모리를 줄이되, 재계산 비용이 추가된다. Gradient checkpointing은 이 원리의 일반화다 — L개 체크포인트만 유지하면 메모리 O(L⋅Bd), 재계산 비용 O(L⋅Bd).
정사영으로서의 정규화 — BatchNorm의 선형대수
BatchNorm은 다음과 같이 정의된다.
X^ij=σj2+ϵXij−μj,Yij=γjX^ij+βj
배치 벡터 x∈RB에 대해 정규화 연산을 기하학적으로 보면:
1-방향 성분 제거: x↦P1⊥x, 여기서 P1⊥=I−B111⊤
크기 표준화: 결과를 B로 정규화
x^는 항상 1⊥에 놓이며 노름이 B다 — 즉 (B−1)차원 구 위의 점이다. γ,β는 이렇게 제거된 2개 자유도를 특징별로 독립하여 복원한다.
역전파도 같은 구조를 반복한다. BN backward는
Xˉ=σγ(I−M1−MX^)Yˉ
형태로, 배치 축에서 1 방향과 X^ 방향을 다시 정사영으로 빼낸다. LayerNorm은 같은 연산을 특징 축에 적용한다는 점만 다르다 — 어느 축을 평균내는가의 차이다.
Lipschitz를 고정하라 — Spectral Normalization
명제 1
· 선형 함수의 Lipschitz 상수
f(x)=Wx에 대해 Lip(f)=σmax(W)=∥W∥2.
▷ 증명
∥Wx−Wy∥=∥W(x−y)∥≤∥W∥2∥x−y∥이므로 Lip(f)≤σmax(W). 등호는 x−y를 최대 우특이벡터 방향으로 택하면 달성된다.
∎
Spectral Normalization은 각 층의 가중치를 WSN=W/σmax(W)로 치환해 망 전체를 1-Lipschitz로 만든다. σmax는 매 스텝 SVD 대신 Power iteration 한 번으로 O(mn)에 추정한다.
v←W⊤u/∥W⊤u∥,u←Wv/∥Wv∥,σ≈u⊤Wv
GAN에서 판별자가 1-Lipschitz를 만족하면 Kantorovich-Rubinstein 쌍대에 의해 Wasserstein-1 거리를 정확히 근사한다. Weight clipping이나 gradient penalty보다 명시적이고 안정적인 이유다.
회전으로 위치를 인코딩하라 — RoPE
Sinusoidal 방식은 위치 벡터를 임베딩에 더한다. RoPE는 다른 질문을 던진다: 쿼리와 키에 어떤 변환을 적용하면 내적이 상대 위치만의 함수가 되는가?
답은 회전이다. d/2개의 주파수 θi=10000−2i/d에 대해 블록 대각 회전 행렬을 정의하고,
⟨Rmq,Rnk⟩=q⊤Rm⊤Rnk=q⊤Rn−mk
Rm⊤Rn=Rn−m이므로 내적은 상대 위치 n−m만의 함수가 된다. Rm은 직교행렬이므로 ∥Rmx∥=∥x∥ — 쿼리·키의 노름은 위치에 무관하게 보존된다.
주파수가 기하 수열을 이루므로 고주파 블록(i=0)은 주기 2π, 저주파 블록(i=d/2−1)은 주기 ∼2π×10000으로 다양한 시간 스케일을 동시에 커버한다. LLaMA, GPT-NeoX, Qwen이 RoPE를 채택한 이유다.
Sample 공분산 Σ^=n1XX⊤ (p/n→c)의 스펙트럼은 Marchenko-Pastur 분포를 따르며, 고유값 범위는 λ±=(1±c)2다. c가 커질수록 스펙트럼이 0과 큰 값으로 양극화한다 — 데이터가 충분하지 않으면 공분산 추정이 심각하게 왜곡된다는 뜻이다.
초기화 전략도 여기서 나온다. He 초기화 Wij∼N(0,2/nin)는 ReLU 네트워크에서 각 층의 출력 분산을 1로 유지해 Marchenko-Pastur 스펙트럼의 우측 edge를 고정한다. 훈련된 네트워크의 Hessian 스펙트럼은 0 근처의 벌크(MP 유사)와 소수의 큰 고유값 아웃라이어로 나뉜다 — 이 아웃라이어가 “학습된 방향”이며 flat minima 이론과 연결된다.
정리
dk 스케일링, BN의 정사영, SN의 Lipschitz 제약은 모두 분산을 제어해 신호가 소멸하거나 폭발하지 않도록 한다는 동일한 동기를 공유한다.
리버스 모드 자동미분은 야코비안을 구성하지 않고 J⊤yˉ만 계산하는 선형대수 알고리즘이다.
RoPE는 직교군 SO(2)d/2의 표현을 위치 인코딩에 활용해 내적이 상대 위치만의 함수가 되도록 설계한다.
Random Matrix Theory는 고차원 랜덤성 속에서 결정적인 스펙트럼 법칙을 발견하고, 이를 초기화·학습·일반화의 수학적 근거로 제공한다.
7개 장을 관통하는 하나의 문장: 선형대수는 AI의 모국어이고, 그 문법은 분산의 보존이다.