AI 2026.05.03 · 10 min
Advanced Llm Efficiency Deep Dive · 1
LLM Fine-Tuning의 메모리 문제는 어디서 오는가
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
총 5개의 글
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
파라미터 절감의 수학적 근거부터 초기화 전략, 타깃 모듈 선택, 배포 방식, 태스크 벡터 산술까지 — LoRA 설계 결정의 통일된 논리를 추적한다.
NF4 양자화, LoRA 어댑터, Paged Optimizer가 합쳐지는 QLoRA의 설계 결정부터 Full FT와의 성능 격차가 1% 미만인 이유까지, 메모리 효율 fine-tuning의 전체 그림을 추적한다.
Low-rank factorization의 Eckart-Young 정리부터 LoRA의 intrinsic rank 가설, Tucker 분해, Hybrid recipe까지 — 학습된 가중치의 redundancy를 제거하는 통일된 관점을 추적한다.
Linear probe와 full fine-tuning의 수학적 차이부터 EWC, LoRA까지 — pretrained representation을 downstream task에 적응시키는 전략의 통합 원리를 추적한다.