LLM Reasoning의 모든 기법은 하나의 질문에서 나온다
CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.
머신러닝 이론과 수학적 기반 — 수식이 왜 그렇게 쓰였는가를 증명하는 공간.
총 334개의 글
CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.
Brownian motion과 Fokker-Planck 방정식에서 시작해 Forward Markov chain의 closed-form, Score function 학습, Posterior 유도까지 — DDPM의 물리적·수학적 기원을 추적한다.
가변 크기 집합 출력이라는 정의 하나가 IoU loss 진화, mAP 계산 방식, NMS 알고리즘, 그리고 DETR의 set prediction까지 모두 도출하는 과정을 추적한다.
IR의 수학적 정식화부터 BM25의 확률론적 유도, 평가 메트릭의 이론적 근거, two-stage pipeline의 recall bound까지 — retrieval 시스템의 설계 원리를 추적한다.
해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.
Residual stream의 선형 구조부터 QK·OV 분해, Head Composition, Linear Representation Hypothesis까지 — Transformer 내부 메커니즘을 추적한다.
어휘 부족 문제부터 In-Batch Negatives, Hard Negative Mining, 그리고 Weakly-Supervised 학습까지 — Dense Retrieval이 필연적으로 선택된 이유를 추적한다.
Zero-shot 트리거 한 줄부터 코드 실행, 자동 최적화까지 — LLM 추론을 elicit하는 다섯 가지 기법의 메커니즘과 트레이드오프를 추적한다.
Induction head가 패턴을 복사하는 원리부터 Attention이 Gradient Descent와 수학적으로 동치임을 밝히고, Task Vector로 zero-shot 전이까지 이어지는 메커니즘을 추적한다.
Full attention의 정확성과 벡터 인덱싱의 속도를 동시에 가질 수 없다는 근본 제약부터, Late Interaction이 그 경계를 어떻게 밀어내는지 추적한다.
Quantization 오차의 수학적 구조부터 LLM.int8()·GPTQ·AWQ·SmoothQuant·NF4까지, 각 기법이 공유하는 하나의 설계 원칙을 추적한다.
CoT 단일 경로의 한계부터 ToT·GoT·RAP·MCTS·Best-of-N까지, LLM 추론을 명시적 탐색 문제로 재정의하는 다섯 가지 전략을 추적한다.
Exact NN의 O(N·d) 한계부터 LSH, IVF, PQ, HNSW, 그리고 Qdrant·Milvus까지 — Recall-Latency 트레이드오프를 지배하는 설계 원리를 추적한다.
Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.
Polysemantic 뉴런의 근본 원인부터 Compressed Sensing과의 동형성, 중요도-희소성 phase transition까지, 신경망이 정보를 중첩 인코딩하는 원리를 추적한다.
PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.
검색과 생성의 단순 연결에서 시작해 adaptive retrieval과 confidence-based routing까지, RAG 아키텍처의 설계 결정들을 추적한다.
초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.
Actor와 Critic의 분리가 만들어내는 분산 감소 원리부터, Advantage 추정의 bias-variance 트레이드오프, Deadly Triad까지 — AC 프레임워크의 설계 결정을 추적한다.
ReAct의 Thought-Action-Observation 루프부터 Reflexion의 verbal RL, Voyager의 lifelong 스킬 축적, Multi-Agent Debate까지 — LLM agent 진화의 공통 철학을 추적한다.
Dense retriever의 recall 한계부터 LLM-as-Reranker의 비용까지, 두 단계 검색 파이프라인의 설계 철학을 추적한다.
Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.
Hidden CoT로 시작해 test-time search와 open distillation까지, 추론 모델의 세 가지 설계 결정이 만들어낸 경제·안전·신뢰성의 트레이드오프를 추적한다.
IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.
entity-relation 그래프로 global question을 해결하는 GraphRAG부터 OCR 없이 PDF 페이지를 직접 임베딩하는 ColPali, Lost-in-the-Middle을 피하는 Late Chunking까지, RAG frontier의 설계 원리를 추적한다.
Next-token 예측이 인간 의도와 어긋나는 근본 원인부터 Bradley-Terry 모델, Plackett-Luce 랭킹, Alignment Tax까지 — Pretraining의 한계가 RLHF를 필연으로 만드는 이유를 추적한다.
탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.
Broadcast부터 Ring AllReduce의 bandwidth-optimal 증명까지, 분산 학습 multi-GPU 통신의 6가지 collective operation과 NCCL 토폴로지 선택 원리를 추적한다.
Context-independent한 고정 벡터의 한계부터 Bi-LSTM, 3단계 fine-tuning recipe, Transformer의 병렬 self-attention까지 — 사전학습 언어모델 진화의 핵심 흐름을 추적한다.
state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.
Efficient ML의 모든 기법을 관통하는 4가지 축의 정의부터 Roofline model, 압축 분류의 직교성, 그리고 알고리즘 압축률과 wall-clock speedup의 괴리까지 추적한다.
Chain rule of probability로 언어 모델을 엄밀하게 정의하고, N-gram의 sparse data 문제부터 Kneser-Ney smoothing의 continuation count 통찰까지, NLP 기초 이론의 흐름을 추적한다.
Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.
ML 부채의 90%가 알고리즘이 아닌 데이터·분포·인과에서 발생하는 이유부터 MLOps 성숙도 최적점 도출까지, production ML 시스템의 설계 철학을 추적한다.
Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.
7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.
Prefill의 compute-bound와 decode의 memory-bound가 같은 모델에서 공존하는 이유부터 Roofline 분석과 batch 최적화의 한계까지, LLM 서빙의 물리적 제약을 추적한다.
정점과 면으로 위상을 명시하는 Explicit부터 level set으로 표면을 암시하는 Implicit까지, 3D Neural Rendering의 기초 표현 분류를 추적한다.
Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.
Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.
N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.
Nyquist-Shannon 정리부터 STFT, Heisenberg 불확정성, mel-scale, MFCC까지 — 모든 현대 오디오 AI가 공유하는 하나의 수학적 철학을 추적한다.
단순한 다차원 배열처럼 보이는 Tensor가 실제로 6원소 튜플로 구성된 이유부터, stride가 CUDA 커널 선택을 바꾸고 view가 zero-copy인 이유까지 추적한다.
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
Forward-mode JVP와 reverse-mode VJP의 비용 분석부터 computation graph의 동적 생성, custom Function 구현, double backward까지 — autograd의 설계 철학을 추적한다.
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.
Cyclic 구조를 DAG로 펼치는 unrolling부터 BPTT 유도, truncation의 bias-memory 트레이드오프, 그리고 RTRL이 왜 다시 주목받는지까지, RNN 학습 알고리즘의 설계 결정을 추적한다.
Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.
Source-Filter Model의 물리적 직관부터 LPC, HMM-GMM, WFST 기반 ASR까지, 음성 처리 고전 파이프라인의 설계 철학과 각 모듈이 deep learning에 무엇을 남겼는지 추적한다.
C ≈ 6ND 유도부터 over-training의 경제학, μP의 width transfer, GNS 기반 배치 스케줄, WSD까지 — LLM 사전학습의 핵심 설계 결정을 하나의 프레임으로 추적한다.
Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.
Distributional hypothesis의 철학적 기반부터 PMI·LSA·SENNA까지, 현대 NLP 임베딩의 공통 토대를 추적한다.
Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.
중복 계산·재사용 부재·stream/batch 비대칭이라는 세 문제의 근본 원인부터, skew가 O(Δ²)로 성능을 잠식하는 수학적 구조와 dual-store 아키텍처의 설계 결정까지 추적한다.
inductive bias 부재라는 ViT의 근본 제약부터, distillation·window attention·spatial reduction·hybrid·multi-scale까지 다섯 가지 해법의 설계 철학을 추적한다.
VAE의 ELBO에서 출발해 노이즈 예측 parameterization을 거쳐 L_simple과 Improved DDPM의 세 가지 개선까지, 손실함수 설계의 핵심 결정들을 추적한다.
Naive autoregressive decoding의 O(T²) 재계산 문제부터 GQA와 KVQuant를 거쳐 실제 서빙 메모리 예산까지, KV cache 최적화의 연쇄적 설계 결정을 추적한다.
Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.
파라미터 절감의 수학적 근거부터 초기화 전략, 타깃 모듈 선택, 배포 방식, 태스크 벡터 산술까지 — LoRA 설계 결정의 통일된 논리를 추적한다.
First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.
OBD의 2차 Taylor 전개부터 NVIDIA 2:4 Sparse Tensor Core까지, 뉴럴넷 프루닝의 모든 설계 결정이 하나의 질문으로 수렴하는 과정을 추적한다.
Kajiya 1986의 rendering equation부터 Beer-Lambert law, volume rendering integral의 수치 적분까지, NeRF의 물리적 기반을 추적한다.
SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.
Region proposal의 병목부터 sub-pixel 정렬 오차까지, two-stage detector 5세대의 설계 결정과 그 연쇄적 해결 과정을 추적한다.
OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.
Static batching의 67% GPU 낭비부터 Prefill-Decode 분리까지, LLM 추론 처리량을 3-5배 끌어올리는 배치 전략의 진화를 추적한다.
최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.
Schema drift와 data drift의 근본적 차이부터 Confident Learning의 노이즈 추정까지, ML 파이프라인의 첫 번째 방어선을 4개 차원으로 해부한다.
Generative, Contrastive, Self-Distillation — label 없이 representation을 학습하는 세 패러다임의 손실함수, 수렴점, 그리고 트레이드오프를 하나의 프레임으로 추적한다.
aten::add 한 호출이 CPU·CUDA·Autograd kernel 중 어느 것으로 실행될지 결정하는 Dispatcher의 설계 철학부터 functorch의 함수형 변환까지, PyTorch 내부 구조를 추적한다.
KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.
Jensen's inequality에서 비롯된 maximization bias의 수학적 구조부터 Double DQN이 online/target network 분리로 이를 제거하는 원리까지, 편향의 근원을 추적한다.
GPT-1의 generative pretraining 선택부터 GPT-3의 in-context learning 발현, 그리고 RoPE·GQA·RMSNorm으로 이어지는 modern LLM 최적화까지, decoder-only 패러다임이 어떻게 진화했는지 추적한다.
View-independent density와 view-dependent color의 분리부터 spectral bias, hierarchical sampling, hash encoding까지 — NeRF 설계 철학의 일관된 맥락을 추적한다.
GMM-HMM의 forced alignment부터 CTC의 marginalization, LAS의 autoregressive decoder, RNN-T의 스트리밍까지 — end-to-end ASR의 설계 철학을 추적한다.
YOLOv1의 grid prediction부터 Focal Loss, modern YOLO, RT-DETR까지 — one-stage detection의 핵심 설계 결정과 그 trade-off를 추적한다.
PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.
INT8부터 BitNet 1.58-bit까지, scale·granularity·calibration의 세 가지 선택이 어떻게 quantization accuracy의 Pareto frontier를 결정하는지 추적한다.
Langevin MCMC의 mode mixing 한계부터 VP/VE-SDE의 연속 시간 통합까지, score 기반 생성 모델의 설계 철학을 추적한다.
TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.
단일 GPU 메모리 한계에서 출발해 Column-GELU-Row 구조의 2-AllReduce 최적성과 NVLink vs InfiniBand 효율 차이까지, Megatron-LM의 설계 결정을 추적한다.
Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.
Loss spike의 4가지 근인부터 Embedding LR 분리, QK-norm, z-loss, RMSNorm, AdamW ε까지 — LLM 훈련 안정화 기법들이 공유하는 하나의 진단 프레임을 추적한다.
Pascanu 2013의 spectral radius 조건부터 saturation 문제, gradient clipping, orthogonal/identity 초기화까지 — RNN 학습 불안정성의 근본 원인과 그 대응의 계보를 추적한다.
Skip-gram과 CBOW의 설계 차이부터 Hierarchical Softmax·Negative Sampling의 수학적 유도, 그리고 SGNS의 optimal solution이 shifted PMI matrix임을 증명한 Levy & Goldberg 2014까지.
Anchor의 6가지 설계 부담부터 FCOS의 per-pixel regression, CenterNet의 keypoint 환원, CornerNet의 pair matching까지 — anchor-free paradigm shift의 동기와 귀결을 추적한다.
Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.
Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.
SM과 Warp 계층부터 Memory Coalescing, Bank Conflict, Warp Divergence, Reduction 최적화까지 — CUDA 커널 성능을 지배하는 하드웨어 원칙을 추적한다.
말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.
Teacher-student 증류와 multi-crop 일관성 손실이 어떻게 semantic segmentation과 k-NN 분류 능력을 만들어내는지, DINO부터 DINOv2까지 붕괴 방지 메커니즘과 스케일링 법칙을 추적한다.
DDPM 샘플링 병목의 근본 원인부터 Non-Markovian forward process, DDIM sampling 공식, Probability Flow ODE와 DPM-Solver의 고차 수렴까지, 확산 모델 가속의 수학적 구조를 추적한다.
Hinton 2015의 soft target 원리부터 dark knowledge, feature distillation, relation-based KD, 그리고 self-distillation까지 — KD의 본질이 function transfer임을 추적한다.
DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.
Covariate shift·Label shift·Concept drift의 수학적 분류부터 KS·Chi²·PSI·MMD·Wasserstein까지, drift detection 메트릭이 각 shift 유형을 어떻게 잡는지 추적한다.
Dueling Network의 분해부터 Noisy Net의 암묵적 탐험까지, Rainbow를 구성하는 다섯 요소가 공유하는 설계 철학과 그 수학적 근거를 추적한다.
Anisotropic Gaussian 파라미터화부터 EWA Projection, Tile-based Rasterization, Adaptive Density Control까지 — 3DGS의 모든 설계 결정이 수렴하는 하나의 철학을 추적한다.
LSA의 global matrix와 Word2Vec의 vector arithmetic이 왜 따로는 불완전한지, GloVe의 ratio formulation이 두 강점을 어떻게 하나의 objective로 결합하는지 추적한다.
MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.
Hochreiter 1997의 CEC 비전부터 forget gate 초기화, GRU의 단순화, variants의 ablation 결과까지 — LSTM 설계 철학의 핵심을 추적한다.
Conformer의 conv+attention 결합부터 Wav2Vec 2.0의 self-supervised contrastive 학습, HuBERT의 iterative refinement, Whisper의 약지도 대규모 학습까지 — 현대 ASR 설계 철학의 변화를 추적한다.
Contiguous KV cache의 60-80% 메모리 낭비 원인부터 OS paging 차용, PagedAttention 알고리즘, prefix caching, vLLM 통합 아키텍처까지, LLM 서빙 메모리 효율의 핵심을 추적한다.
Naive pipeline의 (P-1)/P idle ratio부터 GPipe, 1F1B, Interleaved, Chimera까지 — bubble 감소 4세대의 수학적 전개와 메모리 트레이드오프를 추적한다.
Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.
NF4 양자화, LoRA 어댑터, Paged Optimizer가 합쳐지는 QLoRA의 설계 결정부터 Full FT와의 성능 격차가 1% 미만인 이유까지, 메모리 효율 fine-tuning의 전체 그림을 추적한다.
T5의 text-to-text 패러다임부터 span corruption, Prefix LM, UL2의 Mixture-of-Denoisers, 그리고 encoder-decoder가 현대 LLM의 decoder-only로 수렴하지 못한 이유까지 추적한다.
양방향 컨텍스트부터 외부 메모리, 무작위 저수지까지 — RNN 확장의 네 가지 방향이 모두 같은 병목을 다른 방식으로 돌파한다는 것을 추적한다.
인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.
cpp_extension JIT 컴파일부터 Triton block-level 추상화, cuBLAS/cuDNN 선택 기준, kernel fusion의 정량적 효과까지, PyTorch가 GPU 메모리를 다루는 방식을 추적한다.
End-to-end set prediction 아이디어부터 Hungarian matching의 수학적 근거, slow convergence의 원인과 DINO·RT-DETR의 해결까지, DETR 계열 detection의 설계 철학을 추적한다.
Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.
Canonical space 분리부터 Topology change, 4D Gaussian Splatting, Monocular 재구성까지, 동적 장면 표현의 핵심 원리를 추적한다.
TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.
기댓값 하나로 축약된 Q-value가 놓치는 것들 — 분산, 꼬리 위험, 다봉 분포 — 부터 Wasserstein contraction, C51, QR-DQN, 그리고 Rainbow ablation의 실증까지, Distributional RL의 설계 철학을 추적한다.
외부 분류기의 gradient로 시작해 CFG의 implicit classifier, cross-attention, negative prompt의 compositional score까지 — 조건부 diffusion의 통일된 수학 구조를 추적한다.
Low-rank factorization의 Eckart-Young 정리부터 LoRA의 intrinsic rank 가설, Tucker 분해, Hybrid recipe까지 — 학습된 가중치의 redundancy를 제거하는 통일된 관점을 추적한다.
BEiT의 discrete token부터 MAE의 75% masking, SimMIM의 단순화, MaskFeat·MVP의 target 추상도까지 — MIM 계열의 설계 결정이 공유하는 하나의 원칙을 추적한다.
레이블 도착 지연부터 예측 드리프트, 캘리브레이션, 공정성 불가능 정리, 알림 시스템 설계까지 — production ML monitoring의 다섯 가지 층위를 추적한다.
Sparse activation의 정식화부터 load balancing loss, token dropping, 그리고 scaling law까지 — MoE가 dense를 넘어서는 이유를 추적한다.
TD(0)와 MC 사이의 연속체를 n-step return이 어떻게 매개변수화하는가. bias-variance 트레이드오프의 수학적 분해부터 eligibility trace의 세 가지 구현까지.
샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.
Draft-target 이중 구조의 시스템 복잡성부터 Medusa·EAGLE·Lookahead의 설계 트레이드오프, Best-of-N의 경제성 분석까지, LLM 추론 가속의 핵심 원리를 추적한다.
OOV 문제의 본질부터 BPE·WordPiece·Unigram·SentencePiece의 설계 철학까지, 현대 LLM이 Subword를 표준으로 삼은 이유를 추적한다.
Linear probe와 full fine-tuning의 수학적 차이부터 EWC, LoRA까지 — pretrained representation을 downstream task에 적응시키는 전략의 통합 원리를 추적한다.
BPE의 탐욕 병합부터 Unigram LM의 전역 확률 최적화, 어휘 크기 스케일링 법칙까지 — 토큰화 설계 결정이 LLM 성능에 미치는 영향을 추적한다.
Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.
DDP의 16ψ 메모리 병목에서 출발해 ZeRO-1/2/3와 FSDP의 설계 결정까지, per-GPU 메모리를 1/N로 줄이는 원리를 추적한다.
가설 검정 프레임워크부터 CUPED 분산 감소, 다중 검정 보정, Sequential Testing, Bayesian 의사결정까지 — 현대 A/B 테스트를 지탱하는 통계적 토대를 추적한다.
Forward pass 활성화 메모리의 수학적 분해부터 Gradient Checkpointing, Selective Recomputation, Sequence Parallelism까지 — 대규모 모델 학습의 메모리 병목을 추적한다.
Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.
깊이-너비 비율부터 KV 캐시, MoE 라우팅, 위치 인코딩, 활성화 함수까지 — LLM 아키텍처의 모든 설계 결정이 하나의 원칙으로 수렴하는 이유를 추적한다.
COCO의 mAP@[.5:.95]가 detection의 표준이 된 이유부터 LVIS long-tail, open-vocabulary, domain adaptation까지, closed-set 가정이 무너지는 과정을 추적한다.
Word2Vec의 OOV 한계를 char n-gram 합산으로 돌파한 FastText부터, char-CNN과 biLSTM으로 같은 단어에 다른 벡터를 부여한 ELMo까지, 정적 임베딩이 문맥 임베딩으로 진화한 경로를 추적한다.
표준 Attention의 O(T²) HBM 병목의 수학적 근원부터 Flash Attention 1/2/3의 핵심 아이디어, 그리고 PagedAttention·Ring·Linear Attention까지, 효율적 Attention 설계의 전체 계보를 추적한다.
Weight 업데이트 없이 몇 개의 demo만으로 task를 수행하는 ICL의 현상부터, Attention이 Gradient Descent를 구현한다는 수학적 증명, 그리고 Task Vector가 task 정보를 encoding하는 방식까지 추적한다.
Standard attention의 HBM 병목 원인부터 Online Softmax의 결합법칙, FlashAttention의 tiling 전략, v2/v3의 하드웨어 최적화까지, attention 효율화의 설계 계보를 추적한다.
VAE 48배 압축부터 UNet FiLM 주입, DiT 스케일링 법칙, MM-DiT 양방향 정보 흐름, Cascaded SR까지 — 확산 모델 아키텍처의 설계 결정을 추적한다.
Prefill의 O(L²) 계산 폭발과 Decode의 KV 메모리 누적이 왜 별개의 병목인지, StreamingLLM·YaRN·Ring Attention이 각각 어느 문제를 해결하는지 추적한다.
Performance Difference Lemma의 닭과 달걀 문제부터 greedy 정책 손실의 수학적 bound까지, 현대 RL 이론이 공유하는 하나의 언어를 추적한다.
Bandit regret을 MDP로 확장할 때 등장하는 diameter D의 역할부터, Bayesian posterior sampling과 linear function approximation이 regret scaling을 어떻게 다르게 압축하는지 추적한다.
IEEE 754 비트 구조부터 FP16 언더플로우의 정량적 분석, Loss Scaling의 수학적 정당성, BF16·TF32·Stochastic Rounding까지 — Mixed Precision의 설계 결정을 하나의 원리로 추적한다.
CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.
Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.
6개 컴포넌트의 직교성부터 분산 학습, 잠재 공간 계획까지, Rainbow 이후 DQN 계보가 공유하는 하나의 설계 철학을 추적한다.
Vector Quantization의 기본 원리부터 RVQ·Encodec의 bitrate scalability, semantic/acoustic token의 계층적 분리까지, 현대 audio codec 설계를 관통하는 공통 철학을 추적한다.
Sutskever 2014의 고정 벡터 압축 문제부터 Bahdanau·Luong 어텐션의 설계 결정, 커버리지 메커니즘과 Pointer Network까지, 시퀀스 변환 아키텍처의 진화를 추적한다.
3D 데이터 부족이라는 근본 제약부터 Score Distillation Sampling의 유도, Mode-Seeking 한계, VSD의 해결, Multi-View 일관성까지 — Text-to-3D의 설계 결정을 추적한다.
70B+ 모델 학습에서 DP×TP×PP 그룹 분해부터 MoE all-to-all, 비동기 체크포인트, Elastic 회복 효율까지 — 분산 학습 시스템의 설계 원칙을 추적한다.
수백 스텝이 필요한 reverse process를 1-4 스텝으로 줄이는 세 가지 전략 — Consistency Model, Rectified Flow, Flow Matching, Distillation — 의 공통 원리를 추적한다.
단일 프레임 탐지의 시간적 한계부터 3D 공간 추론, 통합 분할, 그리고 프롬프트 기반 Foundation Model까지 — 객체 인식 파이프라인이 어떻게 진화하는지 추적한다.
Pure Exploration의 두 프레임워크(Fixed-Confidence vs Fixed-Budget)의 근본적 차이부터 Instance-Optimal 알고리즘까지, BAI 이론의 핵심 구조를 추적한다.
Dynamo의 바이트코드 캡처부터 AOTAutograd의 심볼릭 역전파, Inductor의 커널 퓨전, 분산 학습과의 통합까지, PT 2.0 컴파일 파이프라인의 설계 철학을 추적한다.
Potential outcomes의 fundamental problem부터 DiD·RDD의 자연 실험, IPW의 분산 위험, 그리고 DR의 이중 보험까지 — causal ML의 식별 전략을 하나의 흐름으로 추적한다.
DQN이 연속 행동 공간에서 실패하는 수학적 이유부터 DDPG의 결정론적 정책 기울기 유도, Q-과대추정과 탐험 민감성까지, continuous control의 핵심 트레이드오프를 추적한다.
토큰 기반 이미지 생성부터 Scaling Law, 3D 장면 표현, 영상 이해, 세계 모델까지 — Vision Transformer 설계 철학의 공통 실을 추적한다.
Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.
SDS의 수백 초에서 LRM의 5초로, 3D 재구성의 병목이 어디서 어떻게 해소됐는지 triplane 회귀부터 DUSt3R의 dense pointmap, 공간 컴퓨팅 응용까지 추적한다.
무한 상태 공간의 선형 근사부터 Deadly Triad의 발산, Linear MDP의 수렴 보장, Bisimulation 기반 상태 추상화까지 — 함수 근사의 수렴 조건을 추적한다.
GPU 병렬성 한계부터 선택적 상태 공간 모델까지, 시퀀스 아키텍처 30년의 진화를 관통하는 하나의 질문을 추적한다.
Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.
Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.
Instruction Tuning의 zero-shot 일반화 원리부터 Chain-of-Thought의 창발, Self-Consistency의 경로 앙상블, 그리고 'Emergent Abilities'가 측정 방법의 산물일 수 있다는 반론까지 추적한다.
Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.
vLLM·TGI·TensorRT-LLM·SGLang의 메모리 전략부터 Tensor/Pipeline Parallel 배포 패턴, TTFT·Goodput 측정, Disaggregated Serving 절감까지 — LLM 추론 시스템의 설계 철학을 추적한다.
KV cache 단편화 해소부터 mobile NPU 컴파일까지, LLM inference를 실용적으로 만드는 PagedAttention·Speculative Decoding·Continuous Batching·Edge Deployment의 설계 철학을 추적한다.
Autoregressive 병목의 수학적 구조부터 Rejection Sampling의 Losslessness 증명, Medusa·EAGLE·Lookahead까지 — draft 전략의 설계 철학을 추적한다.
AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.
ε-δ 언어부터 Subgradient까지, 경사하강법·역전파·ReLU가 작동하는 이유를 하나의 수렴 철학으로 추적한다.
Prior에서 Posterior까지, MLE·MAP·Full Bayesian의 등가성부터 Bernstein–von Mises 수렴까지 베이지안 ML의 핵심 구조를 추적한다.
조건부 독립의 대수 구조부터 Bayesian Network 인수분해, d-separation, Hammersley–Clifford 정리, 그리고 BN–MRF 변환의 표현력 한계까지, 확률 그래프 모델의 핵심 원리를 추적한다.
ResNet50의 VC 차원이 10의 10제곱에 달하는 이유부터 uniform convergence의 구조적 실패, implicit regularization, 그리고 4가지 일반화 퍼즐까지 — 고전 이론이 어디서 깨지는지 추적한다.
선분 하나가 닫혀 있다는 조건이 어떻게 전역 최적 보장, 쌍대 이론, SVM, LP 꼭짓점 탐색까지 연결되는가를 추적한다.
Discrete convolution의 정의와 cross-correlation의 차이부터, Translation equivariance의 군론적 증명, Toeplitz 행렬 표현, 그리고 Spectral bias까지 CNN의 설계 철학을 추적한다.
Shannon의 세 공리에서 $-\log p$가 유일하게 강제되는 이유부터, 엔트로피·상호정보량·최대 엔트로피 분포까지 — ML 수식 속 로그의 기원을 추적한다.
sample path, 유한차원 분포, 필트레이션, 정상성 — 확률과정의 네 가지 핵심 언어가 어떻게 하나의 수학적 구조를 이루는지, AI 모델 설계까지 추적한다.
Steepest descent의 기하학적 유도부터 convex/strongly convex/non-convex 수렴 속도 비교, proximal gradient까지 — GD 계열 알고리즘의 이론적 한계를 추적한다.
Adjacency matrix의 정의부터 Graph Fourier Transform과 PageRank의 연결까지, GNN의 모든 연산이 공유하는 수학적 토대를 추적한다.
브라운 운동의 무한변동에서 출발해 이토 등장성, 마팅게일 성질, Stratonovich 변환까지 — 확산 모델의 수학적 기초를 추적한다.
PD kernel의 정의부터 Mercer 분해, characteristic·universal 성질까지 — '함수를 내적으로 표현할 수 있다'는 보장이 SVM, GP, MMD 전체를 어떻게 떠받치는지 추적한다.
L2가 Gaussian prior의 negative log이고 L1이 Laplace prior인 이유부터, 기하학적 sparsity와 SVD shrinkage, 그리고 Elastic Net/Group Lasso의 구조적 확장까지 하나의 Bayesian 프레임으로 추적한다.
진짜 위험과 경험 위험의 차이부터 No Free Lunch 정리와 iid 가정이 깨지는 경우까지, 통계적 학습 이론의 핵심 정식화를 추적한다.
가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.
확률분포족을 다양체로 보는 발상부터 Fisher-Rao 측지선, Levi-Civita 연결의 유일성까지, 정보기하의 기하학적 토대를 추적한다.
Laplace의 고전적 확률부터 Banach-Tarski 역설까지, 측도론적 확률 공리화의 필연성과 ML 기반으로서의 통일 프레임을 추적한다.
거리공간의 완비성부터 Riesz 보조정리까지, 유한차원의 직관이 무한차원에서 무너지는 지점과 그 귀결로서의 정규화를 추적한다.
두 정책의 성능 차이를 advantage로 분해하는 PDL부터 surrogate objective, trust region bound, monotonic improvement 보장까지, advanced RL의 단일 이론 체계를 추적한다.
Novikoff 수렴 정리의 (R/γ)² bound부터 XOR의 선형 분리 불가능성, MLP의 합성함수 구조, 활성화 함수별 gradient 안정성까지, 현대 딥러닝 이론의 기반을 추적한다.
통계 모델의 집합론적 정의부터 식별가능성, 표집분포, CLT의 유한표본 오차, 그리고 t·F 통계량의 수학적 뿌리까지 — 추론이 의존하는 가정들을 추적한다.
벡터공간 공리부터 쌍대공간까지, '추상화 한 번으로 무한히 많은 객체를 동시에 다룬다'는 선형대수의 핵심 철학을 추적한다.
Convolution의 forward/backward 수학부터 depthwise separable의 텐서 분해까지, CNN이 '어디서 무엇을 볼 것인가'를 결정하는 방식을 추적한다.
Markov의 indicator trick부터 Bernstein의 분산 의존 경계까지, 집중부등식의 위계와 각 부등식이 ML 이론에서 담당하는 역할을 추적한다.
볼록 함수를 정의하는 세 동치 조건부터 강볼록성·조건수·켤레 함수까지, 경사하강법의 수렴 보장이 어디서 오는지를 추적한다.
마르코프 성질의 수학적 정의부터 상태 분류, Perron-Frobenius 정리, 수렴률의 스펙트럴 해석, Detailed Balance, 에르고딕 정리까지 — MCMC와 강화학습의 이론적 토대를 한 줄기로 추적한다.
앙상블 근사, Variational Inference, Adaptive L2라는 세 해석이 하나의 알고리즘에서 어떻게 공존하는지, 그리고 변종들이 그 철학을 어떻게 확장하는지 추적한다.
Factor graph의 bipartite 구조부터 Loopy BP와 Bethe 자유에너지의 등가성까지, 메시지 패싱이 어떻게 PGM 추론을 통합하는지 추적한다.
브라운 운동의 이차변분이 결정론과 다른 이유부터 Doléans-Dade 지수와 Black-Scholes PDE까지, 이토 공식의 통일된 논리를 추적한다.
KL의 비음수성 증명부터 Forward/Reverse KL의 기하학, JSD와 GAN의 이론적 연결, f-divergence 통일 프레임, Wasserstein의 등장까지 — 분포 간 거리의 설계 철학을 추적한다.
내적공간의 공리부터 Fourier 급수의 L² 수렴까지, Hilbert 공간이 Attention·MSE·Kernel Trick을 하나의 구조로 설명하는 과정을 추적한다.
왜 sigmoid인가, 왜 cross-entropy인가, 왜 softmax인가. Bernoulli MLE 한 줄 유도부터 분리 문제·Firth 보정까지, 분류 알고리즘의 공통 뿌리를 추적한다.
LU부터 Jordan Form까지, 각 행렬 분해가 어떤 구조적 필요에 응답하는지 — 존재 조건, 계산량, 수치 안정성의 연쇄를 추적한다.
편미분이 존재해도 전미분이 없을 수 있다는 사실부터, 야코비안-헤시안-연쇄법칙이 하나의 선형근사 철학으로 통일되는 구조까지, 딥러닝 최적화의 수학적 뼈대를 추적한다.
Bartlett의 spectral norm 곱부터 PAC-Bayes의 KL capacity, compression의 effective bits, Nagarajan-Kolter의 구조적 반례까지 — norm-based 이론이 어디서 한계에 부딪히는지 추적한다.
가측함수로서의 확률변수 정의부터 Radon-Nikodym에 의한 PMF/PDF 통일, 혼합 분포와 변수 변환까지 — 측도론이 ML 분포 모델링을 하나의 언어로 묶는 방식을 추적한다.
Moore-Aronszajn 정리로 RKHS가 존재함을 보이고, 재생성질·Representer 정리를 거쳐 SVM·KRR·GP가 같은 형태의 해를 갖는 이유까지, kernel method의 수학적 골격을 추적한다.
통계다양체의 기하학적 토대부터 Fisher 정보의 세 정의 동치성, Chentsov 유일성 정리, 그리고 Cramér-Rao 하한의 기하학적 의미까지 — 정보기하학의 핵심 구조를 추적한다.
Bruna의 spectral convolution 정의부터 ChebNet의 polynomial 근사, GCN 유도의 4단계 단순화, 그리고 spectral-spatial 동치까지 하나의 설계 철학을 추적한다.
학습률 스케줄의 수학적 근거인 Robbins–Monro 조건부터 SGD noise가 flat minima를 선호하는 이유까지, 딥러닝 최적화의 이론적 토대를 추적한다.
충분통계량의 압축 원리부터 지수족의 로그분할함수, MLE 모멘트 매칭, Basu 정리까지 — 데이터를 파라미터로 연결하는 하나의 구조를 추적한다.
단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.
Cybenko의 sigmoid 보편성 증명부터 Hornik의 일반화, ReLU의 구성적 증명, 깊이 분리, Barron의 차원 무관 수렴율까지 — Universal Approximation Theorem의 수학적 계보를 추적한다.
Jacobian과 연쇄법칙의 행렬 버전부터 softmax + cross-entropy의 기적적인 gradient까지, 역전파 알고리즘의 수학적 구조를 추적한다.
Intractable posterior를 tractable 분포로 근사하는 VI의 아이디어부터 ELBO의 세 분해, CAVI의 단조 수렴, reparameterization trick의 저분산 원리까지 하나의 최적화 철학으로 추적한다.
유계 선형 연산자의 안정성 조건부터 Hahn-Banach의 분리 정리, 약수렴의 컴팩트성까지 — 신경망 설계에 숨어있는 함수해석학의 통일 원리를 추적한다.
표준형의 전역 최솟값 보장부터 LP·QP·SDP 계층, 모델링 기법, DCP 자동 검증까지 — 볼록 최적화의 설계 철학을 추적한다.
엔트로피 기반 정보이득부터 Gini impurity, MSE 분할, Cost-Complexity Pruning, 축정렬 편향까지 — 결정트리의 설계 원리를 관통하는 단일 철학을 추적한다.
특성다항식의 불변량부터 Perron-Frobenius의 지배 고유값까지, 고유값이 행렬의 기하·동역학·수치적 성질을 어떻게 결정하는지 추적한다.
편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.
르베그 적분으로서의 기댓값이 이산·연속·혼합을 단일 정의로 통합하는 원리부터, Jensen·Cauchy-Schwarz가 ELBO와 Cramér-Rao를 만들어내는 과정까지 추적한다.
Hidden Markov Model의 세 가지 문제부터 Kalman Filter, Baum-Welch EM, Viterbi까지, 모든 시계열 추론이 factor graph 위의 메시지 패싱으로 통일되는 과정을 추적한다.
KL 발산의 정보이론적 기원부터 Bregman 발산과의 동치, α-divergence 가족까지 — 현대 AI 손실 함수를 관통하는 하나의 기하학적 구조를 추적한다.
MPNN 프레임워크가 GCN·GraphSAGE·GAT·GIN을 하나의 방정식으로 통일하는 과정부터 Aggregator 선택이 표현력을 결정하는 이유까지, 메시지 패싱의 설계 철학을 추적한다.
Polyak Heavy Ball의 √κ 가속 유도부터 NAG의 O(1/T²) 최적성, ODE 해석, 진동 조건, SGD 노이즈 누적까지 — Momentum optimizer의 설계 철학을 추적한다.
MI의 기본 정의부터 DPI, Fano 부등식, MINE 추정, InfoNCE 기반 대조학습까지 — 표현학습의 설계 결정을 하나의 정보이론적 프레임으로 추적한다.
BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.
Neural Tangent Kernel의 정의부터 NNGP, RKHS, Lazy vs Feature Learning까지 — 무한폭 극한이 딥러닝 훈련을 결정론적 선형 ODE로 환원하는 이유를 추적한다.
Valiant의 PAC learnability 정의부터 Fundamental Theorem까지, '얼마나 많은 데이터가 있으면 학습이 보장되는가'를 추적한다.
카운트·간격·infinitesimal이라는 세 정의의 동치성부터 복합 Poisson의 특성함수, Little의 법칙을 통한 LLM inference 용량 설계까지, Poisson 과정의 통일된 구조를 추적한다.
2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.
이론적 receptive field 공식부터 유효 수용장의 Gaussian 감쇠, dilated convolution의 지수 확장, semantic segmentation 설계까지 — CNN이 실제로 '보는' 영역을 추적한다.
SDE의 진정한 의미인 적분방정식에서 출발해 Picard 반복·Grönwall 부등식·OU 해석해·Itô 보정항·Yamada-Watanabe 정리까지, 생성모델이 작동하는 수학적 기반을 추적한다.
Margin 최대화의 기하학적 출발점부터 Lagrangian dual, Kernel Trick, Soft-margin, SMO까지 — SVM 전체 설계를 관통하는 하나의 원리를 추적한다.
다변수 테일러 전개의 2차 항부터 조건수와 수렴 속도의 관계까지, 경사하강법과 뉴턴 방법의 이론적 기반을 추적한다.
ELBO 유도부터 β-VAE의 disentanglement, Normalizing Flow의 정확한 likelihood, Amortized Inference의 gap, IWAE의 단조 수렴까지 — VAE 계열 생성모델의 통일 원리를 추적한다.
AdaGrad의 누적 분산에서 출발해 RMSProp의 이동평균, Adam의 편향 보정, 수렴 반례, 그리고 AMSGrad·AdamW·Lion까지 — adaptive optimizer 계보의 설계 결정을 추적한다.
Bootstrap의 63.2% 법칙부터 Bagging의 분산 감소 공식, RF의 ρ 감소 전략, 수렴 보장, Feature Importance의 함정까지 — 앙상블 이론의 통일된 공식을 추적한다.
컴팩트 연산자의 정의부터 Fredholm 대안과 Tikhonov 정규화까지, 커널 메서드와 Gaussian Process를 떠받치는 스펙트럼 이론의 핵심을 추적한다.
CTMC의 infinitesimal generator Q-matrix부터 Kolmogorov 방정식, detailed balance, Birth-Death 과정까지 — 단 하나의 구조적 원리가 어떻게 모든 결과를 만들어내는지 추적한다.
discriminative 모델링의 핵심 원리부터 Neural CRF의 end-to-end 학습까지, CRF가 구조화 예측의 표준이 된 이유를 추적한다.
ERM의 Dirac delta 근사부터 Contrastive Learning의 augmentation-defined semantics까지, 현대 정규화 기법의 통일된 수학적 기반을 추적한다.
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.
Lagrangian에서 쌍대 함수를 정의하고, 약쌍대성과 강쌍대성의 차이, KKT 조건의 필요충분 역할, 그림자 가격의 경제 해석까지 — 쌍대 이론의 통일된 구조를 추적한다.
로그밀도의 선형성에서 출발해 쌍대평탄(dually flat) 구조까지, 지수족이 정보기하의 중심이 되는 이유를 추적한다.
Gaussian Process의 정의부터 Sparse GP까지, 공분산 함수 선택이 prior 함수 공간을 결정하고 closed-form posterior가 불확실성을 정량화하는 원리를 추적한다.
1-WL 색 정제부터 GIN의 최적성 증명, k-WL 위계, 위치 인코딩까지 — GNN 표현력의 이론적 천장과 그 우회 전략을 추적한다.
Fokker-Planck 방정식의 유도부터 Log-Sobolev 부등식을 통한 지수 수렴 보장까지, 확률적 시간진화의 핵심 수학을 추적한다.
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.
독립성의 엄밀한 정의부터 Bayes 정리, 조건부 기댓값의 Kolmogorov 정의, Tower·Pull-out 성질, 그리고 베이지안 추론의 측도론적 기초까지 — ML 핵심 알고리즘을 관통하는 하나의 수학적 구조를 추적한다.
대칭성 깨기부터 Fixup까지, 분산 보존이라는 하나의 원칙이 Xavier, He, LSUV, Orthogonal 초기화를 어떻게 파생시켰는지 추적한다.
신뢰구간의 pivot 구조부터 Neyman-Pearson 보조정리와 UMP 검정까지, 고전 통계 추론의 최적성 이론이 어떻게 ML의 설계 결정을 정당화하는지 추적한다.
엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.
Metropolis-Hastings의 detailed balance부터 NUTS의 자동 튜닝, VI와의 정확도-속도 트레이드오프까지 — MCMC 추론 체계의 핵심 원리를 추적한다.
Residual block의 identity shortcut부터 DenseNet의 dense connection, Highway의 learnable gate, Stochastic Depth의 implicit ensemble까지, 깊이의 저주를 구조적으로 해결한 설계 철학을 추적한다.
Kraft 부등식과 엔트로피의 관계부터 AEP의 Typical Set, Arithmetic Coding까지, 소스 코딩 정리가 LLM의 cross-entropy loss를 어떻게 설명하는지 추적한다.
단위구가 타원체로 찌그러지는 기하학적 직관부터 Eckart-Young 저랭크 최적성, Randomized SVD의 확률론적 보장까지, SVD가 선형대수의 통합 언어가 되는 이유를 추적한다.
Shattering과 VC 차원의 정의부터 Sauer-Shelah Lemma를 거친 VC 경계 유도, 그리고 현대 딥러닝에서 이 경계가 왜 완전히 무너지는지까지 추적한다.
L-smooth 볼록 함수의 O(1/k) 수렴부터 Nesterov 가속의 최적성, 뉴턴 방법의 이차 수렴, 분산 감소 기법의 선형 수렴까지 — 1차 최적화 이론의 핵심 정리를 하나의 흐름으로 추적한다.
비선형 변환의 불확실성을 Taylor 전개로 추적하는 Delta method부터, MLE·OLS·ERM을 하나의 틀로 묶는 M-estimator 이론의 Sandwich 공식까지, 점근 통계학의 다섯 챕터를 관통하는 철학을 추적한다.
계산 그래프와 자동미분의 수학적 구조부터 기울기 소실·폭발의 원인과 해결책, Autograd 엔진의 내부 동작까지 딥러닝 최적화의 핵심을 추적한다.
가중치를 확률변수로 취급하는 BNN의 수학적 출발점부터 Laplace, Bayes by Backprop, MC Dropout, SWAG까지, posterior 근사 전략의 트레이드오프를 추적한다.
지수손실 최소화라는 단일 프레임으로 AdaBoost의 가중치 공식부터 XGBoost의 closed-form leaf 값, LightGBM의 histogram 최적화, margin theory의 과적합 저항성까지 추적한다.
채널 용량 C의 정의부터 Achievability·Converse 증명, Polar·LDPC가 그 한계에 도달하는 방식까지, Shannon 정리가 AI 이론의 기반이 되는 과정을 추적한다.
Translation equivariance의 수학적 근거부터 VC 이론의 파라미터 효율, pooling의 invariance, 그리고 LeNet에서 EfficientNet까지 아키텍처 진화의 공통 원리를 추적한다.
확률수렴·거의확실수렴·분포수렴의 정확한 의미부터 대수의 법칙과 중심극한정리의 증명, Monte Carlo의 차원 무관 수렴률까지 추적한다.
훈련 손실이 0이 된 이후에도 수만 스텝 뒤에 테스트 정확도가 갑자기 100%로 뛰는 grokking 현상의 메커니즘부터, SGD implicit bias와 simplicity bias의 양날 구조까지 추적한다.
Cauchy-Schwarz 부등식의 기하적 의미부터 정사영, 최소제곱, Gram 행렬, QR 분해까지 — 내적 하나에서 파생되는 선형대수의 통합 구조를 추적한다.
Kernel Ridge Regression의 closed-form 유도부터 Kernel PCA, Spectral Clustering, Kernel k-means까지, 커널 방법이 비선형 구조를 포착하는 통일된 원리를 추적한다.
Over-confidence의 수학적 원인부터 Label Smoothing, Knowledge Distillation, Confidence Penalty, Temperature Scaling까지, 훈련 목적함수가 만들어내는 calibration 왜곡과 그 교정을 추적한다.
고차원 saddle point의 통계적 희귀성부터 NTK의 lazy regime까지, 딥러닝 loss landscape의 기하학을 하나의 프레임으로 추적한다.
공정한 게임의 수학적 추상인 마팅게일이 SGD 수렴, RL 정책 평가, bandit 탐색-활용 균형까지 어떻게 하나의 언어로 연결되는가.
VGG의 depth 실험부터 NAS의 자동 탐색까지, 현대 CNN 아키텍처 설계를 관통하는 하나의 원리 — 표현력과 효율성의 균형 — 를 추적한다.
유클리드 gradient의 parameterization 의존성 문제부터 Fisher 계량 하의 steepest descent 유도, K-FAC·Shampoo의 실전 근사까지, Natural Gradient의 철학과 구조를 추적한다.
Euler-Maruyama의 강/약수렴 차이부터 Milstein의 이토 Taylor 보정, 암시적 기법의 A-안정성, Multilevel Monte Carlo의 복잡도 최적화까지, SDE 수치 해법의 설계 논리를 추적한다.
GCN의 over-smoothing이 수학적 필연인 이유부터 APPNP의 closed-form 해결까지, 노드 표현이 붕괴하는 메커니즘을 스펙트럼 관점에서 추적한다.
랜덤 라벨 상관성으로 함수족의 표현력을 측정하는 Rademacher 복잡도의 정의부터, Symmetrization-McDiarmid 기반 일반화 경계, Contraction Lemma를 통한 surrogate loss 정당화, 그리고 신경망 norm-based bound까지 추적한다.
점평가의 연속성이라는 단순한 조건에서 커널 트릭, Representer 정리, Gaussian Process의 동치까지, RKHS가 커널 메서드 전체를 하나로 묶는 방식을 추적한다.
Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.
Variable Elimination의 분배법칙부터 Treewidth의 NP-hardness, Junction Tree의 완성까지 — PGM exact inference의 복잡도 구조를 통합적으로 추적한다.
분류의 softmax gradient부터 탐지의 Focal Loss, 분할의 Dice Loss, 자기지도학습의 contrastive loss까지, CNN 각 응용 영역의 손실 함수 설계 철학을 추적한다.
Mean-field ELBO 유도부터 Bethe 자유에너지, EP의 moment matching, Gibbs sampling의 Markov blanket, Particle Filter의 중요도 가중치까지 — approximate inference의 통일된 틀을 추적한다.
노드 분류부터 그래프 생성까지, GNN 응용 태스크 전반을 관통하는 설계 원칙과 표현력의 한계를 추적한다.
사전분포 선택부터 Bernstein-von Mises 수렴까지, 베이즈 추론의 설계 결정 다섯 가지를 하나의 철학으로 꿰뚫는다.
GP posterior로 불확실성을 정량화하고, acquisition function으로 탐색-활용 균형을 수학적으로 구현하는 BO 프레임워크의 설계 원리부터 고차원 확장과 수렴 보장까지.
Sample efficiency와 학습 안정성의 근본 긴장부터 분산 RL 아키텍처, Hybrid 알고리즘의 트레이드오프까지, 현대 RL 알고리즘 설계 철학을 추적한다.
연속이지만 어디서도 미분불가능한 브라운 운동의 4가지 공리부터 이차변분 $(dB)^2 = dt$까지, SDE 이론의 필연성을 추적한다.
라그랑주 승수법부터 KKT 조건, 라그랑지안 쌍대성, 엔벨로프 정리, RLHF까지 — 제약 최적화의 수학적 구조가 AI 알고리즘 설계를 어떻게 결정하는지 추적한다.
Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.
e-projection과 m-projection의 비대칭성에서 출발해 EM 알고리즘, Variational Inference, MaxEnt까지, KL 기하학의 통일 원리를 추적한다.
LTH의 IMP 프로토콜부터 Stable Ticket의 early rewinding, Liu 2019 반론, Strong LTH의 constructive proof까지 — 희소 서브네트워크가 일반화를 설명하는 방식을 추적한다.
고정 LR의 O(1/T) 보장부터 warmup의 curvature 안정화, cosine+warm restart의 local minimum 탐색, One-Cycle의 super-convergence까지, 현대 LR 스케줄링 전체를 관통하는 설계 원리를 추적한다.
Mean embedding으로 확률분포를 RKHS 벡터에 올리는 순간부터, Two-sample test·MMD-GAN·HSIC까지 하나의 철학이 관통하는 방식을 추적한다.
Cross-Entropy와 MLE의 동등성부터 ELBO 분해, MDL, Information Bottleneck, Diffusion ELBO, Fisher 기하까지 — AI 학습 목적함수의 공통 뿌리를 추적한다.
MVN의 PDF 유도부터 Affine 닫힘성, 조건부 분포의 Schur 보수, Gaussian Process, PCA까지 — 하나의 분포가 ML 전체를 어떻게 관통하는지 추적한다.
조건부 독립 가정이 현실에서 항상 깨지는데도 Naive Bayes가 강력한 baseline인 이유부터, Generative vs Discriminative의 점근 교차점까지, 분류의 깊은 구조를 추적한다.
비매끄러운 손실함수를 다루는 proximal operator의 정의부터 ISTA/FISTA의 수렴률 차이, ADMM의 분산 학습 적용까지, 현대 최적화의 핵심 구조를 추적한다.
Anderson의 시간반전 공식부터 Tweedie, Score Matching, Denoising Score Matching, VP/VE-SDE, DDPM까지 — 생성모델의 수학적 뼈대를 하나의 흐름으로 추적한다.
Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.
약미분부터 Lax-Milgram 정리까지, PINN과 유한요소법의 이론적 뿌리를 추적한다. 비매끄러운 함수도 PDE의 해가 될 수 있다는 주장이 어디서 오는지, 그 수학적 근거를 추적한다.
가설공간 복잡도 대신 알고리즘의 robustness를 측정하는 Uniform Stability 프레임워크에서, Ridge Regression의 O(1/λn)과 SGD의 O(ηT/n) 경계까지 추적한다.
다차원 배열이라는 직관에서 벗어나 다중선형 사상으로 텐서를 재정의하고, Kronecker 곱·einsum·분해·신경망 가중치까지 하나의 언어로 통합한다.
Softmax 야코비안의 행렬 구조부터 DEQ의 고정점 역전파, MAML의 2차 미분까지 — 딥러닝 최적화를 관통하는 하나의 언어를 추적한다.
Probability Flow ODE부터 Föllmer SDE, Flow Matching, Langevin MCMC까지 — 현대 생성 모델이 공유하는 하나의 수학적 언어를 추적한다.
MKL의 볼록 결합부터 Random Features의 Fourier 근사, Deep Kernel Learning의 공동 학습, NTK의 무한폭 동치까지 — kernel theory가 deep learning으로 수렴하는 경로를 추적한다.
Diffusion Model의 Hierarchical VAE 해석부터 PPL, Epistemic/Aleatoric 분해, OOD Calibration까지 — Bayesian 프레임워크가 현대 딥러닝을 관통하는 하나의 언어임을 추적한다.
Natural Policy Gradient의 Fisher 역행렬부터 확산 모델의 Fisher divergence까지, 정보기하의 단일 철학이 RL·생성 모델·샘플링에 어떻게 관통하는지 추적한다.
ELBO 유도부터 Reparameterization, MLE 점근 정규성, Dropout의 베이지안 해석, Concentration Inequality까지 — 현대 확률적 ML을 관통하는 하나의 프레임워크를 추적한다.
Loss landscape의 sharpness가 2/η 경계에 자가 안정화되는 Edge-of-Stability부터 Fisher metric 위의 Natural Gradient까지, 딥러닝 최적화의 공통 원리를 추적한다.
OOD 문제를 pessimism으로 해결하는 CQL, BC 정규화를 쓰는 TD3+BC, 상상 롤아웃으로 샘플 효율을 높이는 Dreamer, 그리고 RLHF·DPO가 공유하는 하나의 원칙을 추적한다.
Stone-Weierstrass 정리의 조밀성 조건부터 NTK의 무한폭 극한, Neural Operator의 함수 매핑, PINN의 Sobolev 수렴까지, 함수해석학이 현대 AI의 이론적 토대를 어떻게 구성하는지 추적한다.
K-Means의 GMM 극한부터 DBSCAN의 밀도 연결, PCA·t-SNE·UMAP의 구조 보존 철학까지, 클러스터링과 차원축소의 근본 원리를 하나의 시각으로 추적한다.
BN의 count-based MLE부터 MRF의 partition function 문제, EM의 ELBO 보장, Structure Learning의 NP-hardness, 그리고 GNN·Transformer까지 — classical PGM 학습의 통일된 수학적 계보를 추적한다.
귀납적 편향의 근거부터 적대적 취약성, 스펙트럼 편향, Vision Transformer와의 수렴까지 — CNN의 모든 설계 결정이 공유하는 하나의 원리를 추적한다.
정규화 상수 없이도 샘플링이 가능한 이유부터 Gibbs·HMC의 설계 철학과 수렴 진단까지, MCMC 프레임워크의 핵심 원리를 추적한다.
Logistic Regression의 수렴 보장부터 SVM 쌍대성, L1 희소성의 기하학, 비볼록 딥러닝의 역설, 그리고 온라인 학습의 Regret 경계까지 — 볼록 최적화라는 하나의 렌즈로 추적한다.
Attention의 √d_k 스케일링부터 RoPE의 회전 행렬, Spectral Normalization의 Lipschitz 제약, Random Matrix Theory의 반원 법칙까지 — 현대 딥러닝 수학의 통합 구조를 추적한다.
Graph Transformer의 구조적 encoding부터 E(3) equivariance, LLM과의 융합까지, GNN 고급 이론의 핵심 흐름을 추적한다.
SWA의 iterate 평균부터 SAM의 worst-case minimax, AdamW의 decoupled weight decay까지, 현대 regularization 기법들이 Prior·Ensemble·Landscape·Invariance 4축 위에서 어떻게 통합되는지 추적한다.
Chinchilla compute-optimal ratio의 수학적 유도부터 Broken Scaling Law, Emergent Abilities 논쟁, ICL의 implicit gradient descent 이론까지, LLM 스케일링의 예측 가능성을 추적한다.
SRM의 VC 기반 penalty부터 AIC/BIC의 정보이론적 근거, Cross-Validation의 경험적 추정, 그리고 VC·Rademacher·Stability 세 관점의 대비까지, 일반화 이론의 통일 원리를 추적한다.
ERM과 MLE의 수학적 동치부터 정규화의 MAP 해석, GLM의 통합 구조, 통계학습이론의 일반화 보장, 그리고 베이지안 신경망의 불확실성 정량화까지 — 두 분야를 관통하는 하나의 철학을 추적한다.
√d_k 스케일링부터 Residual Connection까지, Transformer의 핵심 설계 결정들이 하나의 원칙 — '신호가 사라지지 않게 하라' — 에서 비롯됨을 추적한다.
Scaled dot-product attention의 수학적 필연성부터 softmax 포화, 커널 해석, 멀티헤드의 표현력, 해석 가능성 논쟁까지 — Transformer의 핵심 설계 결정을 추적한다.
Discriminative와 Generative의 수학적 차이부터 KL 최소화 통합 관점, IS·FID·NLL 평가 지표까지, 생성 모델을 하나의 언어로 이해한다.
확률의 chain rule이 항등식인 이유부터 PixelCNN의 masked convolution, WaveNet의 dilated causal conv, GPT의 scaling law까지, AR 생성 모델의 통일 철학을 추적한다.
Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.
순서를 모르는 Self-Attention의 한계부터 Sinusoidal, Learned, Relative PE를 거쳐 RoPE와 ALiBi까지, 위치 정보 주입의 설계 진화를 추적한다.
ELBO의 reconstruction-regularization 분해부터 posterior collapse의 근본 원인, reparameterization trick의 수학, β-VAE의 information bottleneck 해석, VQ-VAE의 discrete 전환까지 — VAE 설계 결정의 연쇄를 추적한다.
Change of variables 공식의 두 조건 — invertibility와 tractable Jacobian — 이 어떻게 Coupling, Autoregressive, Continuous Flow의 architecture를 각각 다르게 강제하는지 추적한다.
Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.
Self-attention의 이차 복잡도가 만드는 메모리·시간 병목의 근원부터, Linear·Sparse·Flash·MQA/GQA 네 가지 해법의 수학적 원리와 트레이드오프까지 추적한다.
Minimax 정식화부터 JSD 환원, Mode Collapse의 수학적 원인, Wasserstein 거리, Spectral Normalization까지 — GAN 훈련 불안정성의 뿌리를 추적한다.
Forward process의 closed-form 유도부터 Score-SDE의 통합 프레임워크, Classifier-Free Guidance의 암묵적 분류기까지 — 확산 모델 설계의 단일 원리를 추적한다.
Transformer 의 다섯 변형이 '맥락을 어떻게 쓸 것인가'라는 하나의 질문에 각자 다르게 답하는 방식부터, MoE 가 파라미터와 계산을 분리하는 원리까지, 아키텍처 설계 철학의 흐름을 추적한다.
Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.
AR · VAE · Flow · GAN · Diffusion 의 likelihood, 샘플링 속도, 품질 트레이드오프부터 Consistency Model, EBM, 프런티어 응용까지, 생성 모델의 설계 철학을 추적한다.