사전학습 모델을 어떻게 내 task에 맞게 바꾸는가
Linear probe와 full fine-tuning의 수학적 차이부터 EWC, LoRA까지 — pretrained representation을 downstream task에 적응시키는 전략의 통합 원리를 추적한다.
- 01 Pretrained LM은 어떻게 '언어를 이해'하게 되었나
- 02 BERT는 어떻게 언어를 '이해'하는가
- 03 GPT에서 LLaMA까지: Decoder-Only LLM의 설계 철학
- 04 T5는 왜 모든 NLP task를 text-to-text로 통일했는가
- 05 사전학습 모델을 어떻게 내 task에 맞게 바꾸는가
- 06 In-Context Learning은 어떻게 작동하는가
- 07 Instruction에서 Reasoning까지 — LLM은 어떻게 생각을 배우는가
사전학습 모델은 거대한 지식 저장소다. 그 지식을 특정 task에 쓰려면 “어디까지 건드릴 것인가”를 결정해야 한다. 전부 다 바꾸면 기존 지식이 날아가고, 아무것도 안 바꾸면 새 task에 적응하지 못한다. 이 긴장 관계를 어떻게 해소하는가?
두 극단: Linear Probe와 Full Fine-Tuning
가장 단순한 두 선택지부터 출발하자.
Linear probe는 encoder를 완전히 고정하고 분류 헤드만 학습한다.
학습 파라미터는 개뿐이다. Encoder 가 상수이므로, 이 최적화 문제는 strictly convex — unique global optimum이 보장된다.
Full fine-tuning은 까지 모두 학습한다.
가 의 비선형 함수이므로 non-convex. 수백만 개의 파라미터가 downstream task loss만 따라 움직인다.
데이터셋 크기 에 대해
경험적 전환점은 근처다.
Small 에서 full FT의 학습 대상 파라미터 수(수억)는 데이터 수를 압도한다. Rademacher complexity 관점에서 가설 공간이 너무 넓으면 generalization bound가 무의미해진다. Linear probe는 개의 파라미터만 사용하므로 complexity가 낮고, pretrained representation의 품질에 의존한다. 이 충분히 크면 full FT가 task-specific feature를 학습할 수 있어 superior.
Kumar 2022의 발견: ID vs OOD의 긴장
그런데 full fine-tuning이 항상 더 나은 것도 아니다. Kumar 2022는 놀라운 패턴을 발견했다.
이유는 spurious correlation에 있다. Full FT는 training domain의 표면적 패턴을 encoder에 새겨넣는다. Linear probe는 encoder를 건드리지 않으므로, pretrained representation의 domain-invariant feature가 보존된다.
정보이론적으로 표현하면: full FT 이후 가 감소하고, 이 증가한다. Encoder freeze는 구조적으로 이 trade-off를 막는다.
Discriminative LR과 LR Schedule: 층별로 다르게
그렇다면 full FT를 하되, “얼마나 바꿀 것인가”를 층별로 조절할 수 없을까? Howard 2018(ULMFiT)의 답이 discriminative fine-tuning이다.
하위 층일수록 작은 learning rate를 쓴다. Transformer의 하위 층은 general linguistic feature(형태론, 구문)를 담고 있어 대부분의 task에 유용하다. 상위 층은 언어모델링 목표와 downstream task의 목표가 달라 더 큰 변화가 필요하다.
┌─────────────┐
│ Head / L │ ← η_base (큰 LR)
├─────────────┤
│ Layer L-1 │ ← η_base / 2.6
├─────────────┤
│ Layer 1 │ ← η_base / 2.6^(L-1) (매우 작은 LR)
├─────────────┤
│ Embedding │ ← frozen
└─────────────┘
학습 초기의 불안정성은 slanted triangular LR(STLR)로 완화한다.
처음 10%의 step에서 warmup, 이후 90%에서 선형 감소. Adam optimizer의 second moment $v_t$가 초기에 작아 effective LR이 폭증하는 문제를 warmup이 막는다.
은 Howard 2018이 ULMFiT의 validation perplexity를 최소화하는 grid search로 찾은 값이다. BERT-Large()에서 이 값을 그대로 쓰면 하위 층의 LR이 $\eta_{\text{base}} / 2.6^{23} \approx 10^{-13}$ 수준으로 떨어져 사실상 동결된다. 깊은 모델에서는 를 재조정하거나 minimum LR bound를 설정해야 한다.
Catastrophic Forgetting과 EWC
Discriminative LR이 forgetting을 완화하지만 근본적으로 막지는 못한다. Kirkpatrick 2017의 EWC(Elastic Weight Consolidation)는 이 문제를 Bayesian 관점에서 직접 다룬다.
핵심 아이디어: Task A에서 “중요한 파라미터”는 고정하고, “덜 중요한 파라미터”만 Task B에 맞게 변경하자. 중요도는 Fisher information으로 측정한다.
EWC loss는 Task B loss에 탄성 제약을 더한다.
가 크면 Task A loss에 민감한 파라미터 → 에 강하게 고정. 가 작으면 자유롭게 변한다.
PEFT: 파라미터의 0.1%만 건드린다
EWC가 “중요한 파라미터를 보호”한다면, PEFT(Parameter-Efficient Fine-Tuning)는 더 직접적이다 — “처음부터 적은 파라미터만 학습한다.”
**LoRA(Hu 2021)**의 핵심 관찰: fine-tuning 시 weight 변화 는 low-rank일 가능성이 높다.
는 frozen. 학습 파라미터는 개 — 이면 전체의 0.4%. 초기화는 , 으로 설정해 에서 출발한다. 학습 초반의 급격한 변화를 막는 장치다.
비교를 위한 세 가지 방법의 포지션:
| 방법 | 학습 파라미터 | ID 성능 | 메모리 |
|---|---|---|---|
| Full FT | 100% | 최고 | 높음 |
| LoRA (r=8) | ~0.4% | ≈99% | 매우 낮음 |
| Adapter | ~3-5% | ≈98% | 낮음 |
| BitFit | ~0.05% | 85-95% | 최저 |
BitFit(Ben-Zaken 2022)은 bias term만 학습한다. 전체의 0.05%에 불과한데도 GLUE 대부분 task에서 full FT의 85-95% 성능을 낸다. Pretrained representation이 이미 충분히 좋다는 방증이다.
정리
다섯 챕터를 관통하는 원리는 하나다 — pretrained representation의 품질을 보존하면서 downstream task에 적응하는 비용을 최소화하라.
- 데이터가 적을수록 파라미터를 덜 건드려라: linear probe → BitFit → LoRA → full FT 순으로 escalate.
- OOD robustness가 중요하면 encoder를 가능한 한 건드리지 마라(Kumar 2022).
- Full FT를 해야 한다면, discriminative LR과 STLR로 하위 층의 일반 지식을 보호하라.
- 연속적 task 학습에서 catastrophic forgetting이 우려되면 EWC로 중요 파라미터를 탄성 고정하라.
- 계산 예산이 빠듯하면 LoRA — 성능 손실 1% 미만, 메모리 10-100배 절감.
fine-tuning 전략의 선택은 “어떤 방법이 더 좋은가”가 아니라 “내 데이터 크기, OOD 요구, 계산 예산의 세 축에서 어디에 서 있는가”의 문제다.