Knowledge Distillation은 왜 단순 압축이 아닌가
Hinton 2015의 soft target 원리부터 dark knowledge, feature distillation, relation-based KD, 그리고 self-distillation까지 — KD의 본질이 function transfer임을 추적한다.
- 01 모델 효율화의 4축 — Memory, Compute, Latency, Throughput
- 02 Pruning은 무엇을 제거하는가 — saliency에서 hardware까지
- 03 LLM Quantization은 왜 scale 결정의 문제인가
- 04 Knowledge Distillation은 왜 단순 압축이 아닌가
- 05 모델 압축의 4축은 어떻게 하나의 철학으로 수렴하는가
- 06 FlashAttention은 어떻게 O(N²) 메모리 벽을 넘었나
- 07 LLM을 어떻게 배포할 것인가 — serving 스택의 네 층
Pruning과 Quantization이 weight space의 redundancy를 제거한다면, Knowledge Distillation(KD)은 다른 축에서 작동한다 — 큰 모델이 학습한 function을 작은 모델에 이식한다. 그런데 같은 architecture끼리도 KD가 성능을 올린다는 사실은 “압축”이라는 설명만으로는 부족하다. KD의 본질은 무엇인가?
Soft Target이 Hard Label보다 많은 것을 담는 이유
Hard label은 [cat: 1, dog: 0, truck: 0, ...]처럼 1-bit 신호다. Teacher의 soft target은 다르다.
T=4 에서의 soft target (cat 이미지):
cat: 0.62, dog: 0.23, truck: 0.10, plane: 0.04, ...
dog: 0.23은 단순한 오분류 확률이 아니다. cat과 dog가 시각적으로 유사하다는 manifold 구조가 인코딩되어 있다. Hinton은 이를 dark knowledge라 불렀다 — hard label에 없는 non-target class 간의 상대적 확률 비율.
이 비율을 수식으로 쓰면 정확하다.
Temperature 로 스케일된 logit 차이가 inter-class similarity를 인코딩한다. 를 키우면 이 차이가 더 선명하게 드러나고, 이면 균등 분포로 가지만 — 1차 Taylor 전개 결과, logit 차이 정보는 스케일로 보존된다.
Factor — Gradient를 살리는 정확한 보정
KD loss는 흔히 이렇게 쓴다.
는 임의의 정규화가 아니다. KD loss의 student logit에 대한 gradient를 계산하면 다음이 나온다.
High- regime에서 가 모두 균등 분포에 가까우므로 그 차이는 이다. 두 항의 곱: . Hard label loss의 gradient 도 이므로, 가 있어야 두 항이 같은 스케일을 유지한다. 가 없으면 가 커질수록 KD gradient가 소실되고 의 의미가 에 종속된다.
가 크면 dark knowledge 활용도가 높아지지만, factor 없이는 gradient가 로 줄어 KD signal이 hard label에 압도된다. 는 이 trade-off를 하나로 통제하게 만드는 정확한 보정이다.
Feature와 Relation — Logit 너머의 Transfer
Logit KD는 출력단만 모방한다. Teacher의 중간 표현을 활용하는 방법이 두 갈래로 발전했다.
Feature-based KD (FitNets, Attention Transfer)는 intermediate feature map을 직접 매칭한다.
는 student와 teacher의 channel 수가 다를 때 dimension을 맞추는 1×1 conv adapter다. Attention Transfer는 channel을 collapse해서 spatial attention map만 매칭한다.
이 방식은 student/teacher의 channel 수 차이를 자동으로 처리하므로 architecture-agnostic하다.
Relation-based KD (RKD, Park 2019)는 더 근본적인 invariance를 요구한다 — 개별 embedding이 아니라 sample 간의 거리와 각도를 보존하라.
student의 embedding 좌표 자체는 teacher와 달라도 된다. pairwise distance 구조만 일치하면 된다. 이 translation/rotation invariance 덕분에 RKD는 embedding metric learning의 teacher-guided 변형으로 볼 수 있다.
세 방식의 joint loss는 다음과 같다.
세 방식이 class-level prediction, per-sample intermediate state, cross-sample structure를 각각 다른 invariance로 transfer하기 때문에 joint 사용이 일관되게 single 사용을 앞선다.
Self-Distillation — 압축 없는 KD의 역설
Born-Again Networks (Furlanello 2018)는 이 역설적 결과를 보고했다. 같은 architecture로 KD를 반복하면 generation마다 성능이 단조 증가한다.
Generation 0 (hard label only): 71.2%
Generation 1 (KD from Gen 0): 72.0%
Generation 2 (KD from Gen 1): 72.4%
Generation 3: 72.6%
... (eventually saturates)
이것은 model 압축이 아니다. 메커니즘 후보는 셋이다 — label smoothing 효과, implicit ensemble, curriculum signal. Yuan 2020은 KD가 “input-aware label smoothing”이라 분석했다. 고정된 uniform mixing이 아니라, teacher가 입력별로 다른 soft target을 생성하므로 단순 label smoothing보다 일관되게 우월하다.
Allen-Zhu & Li (2020)의 multi-view hypothesis는 더 깊이 파고든다. 큰 모델이 학습 데이터의 다양한 feature view를 capture하고, KD가 그 ensemble-like 표현을 student에 이식한다는 주장이다.
정리
- Hard label은 class identity만 전달한다. Soft target은 class 간 유사도 구조(dark knowledge)를 추가로 전달한다.
- factor는 고온에서 KD gradient가 소실되지 않도록 정확히 보정한다 — 임의 관행이 아니라 수학적 필연이다.
- Feature KD와 Relation KD는 logit KD와 다른 invariance를 가지며, joint 사용이 일관되게 우월하다.
- Self-distillation은 압축 없이도 성능이 오른다 — KD의 본질이 function transfer임을 가장 직접적으로 보여준다.
다음 글에서는 Low-Rank Factorization으로 넘어간다 — weight matrix 자체를 분해해 parameter를 줄이는 또 다른 compression axis를 다룬다.