LLM Fine-Tuning의 메모리 문제는 어디서 오는가
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
총 8개의 글
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
Naive autoregressive decoding의 O(T²) 재계산 문제부터 GQA와 KVQuant를 거쳐 실제 서빙 메모리 예산까지, KV cache 최적화의 연쇄적 설계 결정을 추적한다.
DDP의 16ψ 메모리 병목에서 출발해 ZeRO-1/2/3와 FSDP의 설계 결정까지, per-GPU 메모리를 1/N로 줄이는 원리를 추적한다.
GC Roots와 Reachability Analysis부터 Serial/Parallel/CMS/G1/ZGC까지, JVM 가비지 컬렉터의 설계 결정과 그 대가를 추적한다.
가상 메모리와 Page Table 변환부터 Page Fault, Page Cache, mmap/O_DIRECT, 메모리 할당기 단편화, OOM Killer까지 — 백엔드 서비스 메모리 트러블슈팅의 전체 지형을 추적한다.
Heap의 세대별 구조부터 TLAB, 스택 프레임, Metaspace, Runtime Constant Pool, 객체 레이아웃, Off-Heap까지 JVM 메모리 모델 전체를 하나의 설계 철학으로 추적한다.
String의 SDS부터 Sorted Set의 skiplist까지, Redis 7가지 자료구조의 인코딩 전략과 listpack 경계가 메모리를 10배 바꾸는 원리를 추적한다.
단일 스레드 이벤트 루프부터 jemalloc 메모리 관리, redisObject 인코딩, 키 만료 메커니즘, Threaded I/O까지 — Redis 내부 설계의 공통 원리를 추적한다.