series · llm-efficiency-deep-dive

📚 LLM Efficiency Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 1

7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Efficiency Deep Dive · 2

파라미터 절감의 수학적 근거부터 초기화 전략, 타깃 모듈 선택, 배포 방식, 태스크 벡터 산술까지 — LoRA 설계 결정의 통일된 논리를 추적한다.

AI 2026.05.05 · 12 min Advanced LLM Efficiency Deep Dive · 3

Quantization 오차의 수학적 구조부터 LLM.int8()·GPTQ·AWQ·SmoothQuant·NF4까지, 각 기법이 공유하는 하나의 설계 원칙을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 4

NF4 양자화, LoRA 어댑터, Paged Optimizer가 합쳐지는 QLoRA의 설계 결정부터 Full FT와의 성능 격차가 1% 미만인 이유까지, 메모리 효율 fine-tuning의 전체 그림을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 5

Sparse activation의 정식화부터 load balancing loss, token dropping, 그리고 scaling law까지 — MoE가 dense를 넘어서는 이유를 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Efficiency Deep Dive · 6

표준 Attention의 O(T²) HBM 병목의 수학적 근원부터 Flash Attention 1/2/3의 핵심 아이디어, 그리고 PagedAttention·Ring·Linear Attention까지, 효율적 Attention 설계의 전체 계보를 추적한다.

AI 2026.05.03 · 9 min Advanced Llm Efficiency Deep Dive · 7

Autoregressive 병목의 수학적 구조부터 Rejection Sampling의 Losslessness 증명, Medusa·EAGLE·Lookahead까지 — draft 전략의 설계 철학을 추적한다.