프롬프트는 어떻게 추론을 만드는가
Zero-shot 트리거 한 줄부터 코드 실행, 자동 최적화까지 — LLM 추론을 elicit하는 다섯 가지 기법의 메커니즘과 트레이드오프를 추적한다.
총 14개의 글
Zero-shot 트리거 한 줄부터 코드 실행, 자동 최적화까지 — LLM 추론을 elicit하는 다섯 가지 기법의 메커니즘과 트레이드오프를 추적한다.
Quantization 오차의 수학적 구조부터 LLM.int8()·GPTQ·AWQ·SmoothQuant·NF4까지, 각 기법이 공유하는 하나의 설계 원칙을 추적한다.
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
C ≈ 6ND 유도부터 over-training의 경제학, μP의 width transfer, GNS 기반 배치 스케줄, WSD까지 — LLM 사전학습의 핵심 설계 결정을 하나의 프레임으로 추적한다.
GPT-1의 generative pretraining 선택부터 GPT-3의 in-context learning 발현, 그리고 RoPE·GQA·RMSNorm으로 이어지는 modern LLM 최적화까지, decoder-only 패러다임이 어떻게 진화했는지 추적한다.
INT8부터 BitNet 1.58-bit까지, scale·granularity·calibration의 세 가지 선택이 어떻게 quantization accuracy의 Pareto frontier를 결정하는지 추적한다.
말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.
BPE의 탐욕 병합부터 Unigram LM의 전역 확률 최적화, 어휘 크기 스케일링 법칙까지 — 토큰화 설계 결정이 LLM 성능에 미치는 영향을 추적한다.
깊이-너비 비율부터 KV 캐시, MoE 라우팅, 위치 인코딩, 활성화 함수까지 — LLM 아키텍처의 모든 설계 결정이 하나의 원칙으로 수렴하는 이유를 추적한다.
Standard attention의 HBM 병목 원인부터 Online Softmax의 결합법칙, FlashAttention의 tiling 전략, v2/v3의 하드웨어 최적화까지, attention 효율화의 설계 계보를 추적한다.
Prefill의 O(L²) 계산 폭발과 Decode의 KV 메모리 누적이 왜 별개의 병목인지, StreamingLLM·YaRN·Ring Attention이 각각 어느 문제를 해결하는지 추적한다.
Kraft 부등식과 엔트로피의 관계부터 AEP의 Typical Set, Arithmetic Coding까지, 소스 코딩 정리가 LLM의 cross-entropy loss를 어떻게 설명하는지 추적한다.
Chinchilla compute-optimal ratio의 수학적 유도부터 Broken Scaling Law, Emergent Abilities 논쟁, ICL의 implicit gradient descent 이론까지, LLM 스케일링의 예측 가능성을 추적한다.
Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.