category · ai

AI

머신러닝 이론과 수학적 기반 — 수식이 왜 그렇게 쓰였는가를 증명하는 공간.

총 334개의 글

AI 2026.05.05 · 11 min Advanced Llm Reasoning Deep Dive · 1

LLM Reasoning의 모든 기법은 하나의 질문에서 나온다

CoT의 latent variable 정식화부터 inference-time scaling law까지, reasoning chain z를 어떻게 다룰 것인가라는 공통 프레임을 추적한다.

AI 2026.05.05 · 11 min Advanced Diffusion Model Deep Dive · 1

Diffusion Model의 수학은 어디서 왔나

Brownian motion과 Fokker-Planck 방정식에서 시작해 Forward Markov chain의 closed-form, Score function 학습, Posterior 유도까지 — DDPM의 물리적·수학적 기원을 추적한다.

AI 2026.05.05 · 12 min Advanced Object Detection Deep Dive · 1

Object Detection의 수학적 뼈대 — 왜 출력이 집합인가

가변 크기 집합 출력이라는 정의 하나가 IoU loss 진화, mAP 계산 방식, NMS 알고리즘, 그리고 DETR의 set prediction까지 모두 도출하는 과정을 추적한다.

AI 2026.05.05 · 13 min Advanced Retrieval Rag Deep Dive · 1

RAG의 상한선은 어디서 결정되는가

IR의 수학적 정식화부터 BM25의 확률론적 유도, 평가 메트릭의 이론적 근거, two-stage pipeline의 recall bound까지 — retrieval 시스템의 설계 원리를 추적한다.

AI 2026.05.05 · 14 min Advanced Mechanistic Interpretability Deep Dive · 1

Mechanistic Interpretability는 무엇을 증명하는가

해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 2

Transformer의 내부는 어떻게 작동하는가 — Mechanistic Interpretability 의 수학적 기초

Residual stream의 선형 구조부터 QK·OV 분해, Head Composition, Linear Representation Hypothesis까지 — Transformer 내부 메커니즘을 추적한다.

AI 2026.05.05 · 12 min Advanced Retrieval Rag Deep Dive · 2

Dense Retrieval은 왜 BM25를 이겼는가

어휘 부족 문제부터 In-Batch Negatives, Hard Negative Mining, 그리고 Weakly-Supervised 학습까지 — Dense Retrieval이 필연적으로 선택된 이유를 추적한다.

AI 2026.05.05 · 14 min Advanced Llm Reasoning Deep Dive · 2

프롬프트는 어떻게 추론을 만드는가

Zero-shot 트리거 한 줄부터 코드 실행, 자동 최적화까지 — LLM 추론을 elicit하는 다섯 가지 기법의 메커니즘과 트레이드오프를 추적한다.

AI 2026.05.05 · 12 min Advanced Mechanistic Interpretability Deep Dive · 3

In-Context Learning의 두 얼굴 — Lookup인가, 최적화인가

Induction head가 패턴을 복사하는 원리부터 Attention이 Gradient Descent와 수학적으로 동치임을 밝히고, Task Vector로 zero-shot 전이까지 이어지는 메커니즘을 추적한다.

AI 2026.05.05 · 11 min Advanced Retrieval Rag Deep Dive · 3

Cross-Encoder, ColBERT, 그리고 검색의 Pareto 경계

Full attention의 정확성과 벡터 인덱싱의 속도를 동시에 가질 수 없다는 근본 제약부터, Late Interaction이 그 경계를 어떻게 밀어내는지 추적한다.

AI 2026.05.05 · 12 min Advanced LLM Efficiency Deep Dive · 3

LLM Quantization의 설계 철학 — 무엇을 희생하고 무엇을 보호할 것인가

Quantization 오차의 수학적 구조부터 LLM.int8()·GPTQ·AWQ·SmoothQuant·NF4까지, 각 기법이 공유하는 하나의 설계 원칙을 추적한다.

AI 2026.05.05 · 13 min Advanced Llm Reasoning Deep Dive · 3

LLM이 나무를 타고 답을 찾는 법

CoT 단일 경로의 한계부터 ToT·GoT·RAP·MCTS·Best-of-N까지, LLM 추론을 명시적 탐색 문제로 재정의하는 다섯 가지 전략을 추적한다.

AI 2026.05.05 · 11 min Advanced Retrieval Rag Deep Dive · 4

벡터 검색은 어떻게 빠를 수 있는가

Exact NN의 O(N·d) 한계부터 LSH, IVF, PQ, HNSW, 그리고 Qdrant·Milvus까지 — Recall-Latency 트레이드오프를 지배하는 설계 원리를 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 4

PRM은 왜 ORM을 이기는가 — Step-Level Reward의 수학

Outcome Reward의 sparse signal이 Long CoT에서 credit assignment를 망치는 원리부터, PRM이 value function과 수학적으로 동치임을 보이는 Bellman 증명까지 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 4

뉴런 하나가 여러 개념을 담는 이유 — Superposition 이론

Polysemantic 뉴런의 근본 원인부터 Compressed Sensing과의 동형성, 중요도-희소성 phase transition까지, 신경망이 정보를 중첩 인코딩하는 원리를 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 5

GRPO는 어떻게 PPO의 Critic을 없앴는가

PPO의 4-network 부담부터 GRPO의 group-relative advantage 유도, R1-Zero의 aha moment, R1의 5-stage pipeline, 그리고 RLOO/REINFORCE++까지 — LLM 추론 RL의 설계 철학을 추적한다.

AI 2026.05.05 · 11 min Advanced Retrieval Rag Deep Dive · 5

RAG는 어떻게 진화했는가 — Vanilla부터 CRAG까지

검색과 생성의 단순 연결에서 시작해 adaptive retrieval과 confidence-based routing까지, RAG 아키텍처의 설계 결정들을 추적한다.

AI 2026.05.05 · 15 min Advanced Mechanistic Interpretability Deep Dive · 5

SAE는 어떻게 신경망의 개념을 분리하는가

초과완전 희소 기저로 LLM 내부 표현을 분해하는 원리부터 Dead Feature 해결, Top-K·JumpReLU 설계, Templeton 2024의 스케일링 법칙, Gemma Scope의 오픈소스 회로 분석까지 추적한다.

AI 2026.05.05 · 10 min Advanced Model-Free RL Deep Dive · 6

Actor-Critic은 왜 두 역할로 나뉘는가

Actor와 Critic의 분리가 만들어내는 분산 감소 원리부터, Advantage 추정의 bias-variance 트레이드오프, Deadly Triad까지 — AC 프레임워크의 설계 결정을 추적한다.

AI 2026.05.05 · 11 min Advanced Llm Reasoning Deep Dive · 6

LLM Agent는 어떻게 도구를 쓰고, 실패에서 배우고, 함께 생각하는가

ReAct의 Thought-Action-Observation 루프부터 Reflexion의 verbal RL, Voyager의 lifelong 스킬 축적, Multi-Agent Debate까지 — LLM agent 진화의 공통 철학을 추적한다.

AI 2026.05.05 · 11 min Advanced Retrieval Rag Deep Dive · 6

RAG 검색은 왜 두 단계인가

Dense retriever의 recall 한계부터 LLM-as-Reranker의 비용까지, 두 단계 검색 파이프라인의 설계 철학을 추적한다.

AI 2026.05.05 · 15 min Advanced Mechanistic Interpretability Deep Dive · 6

LLM의 행동은 벡터로 쓰고 지울 수 있는가

Activation steering의 수학적 토대부터 refusal direction 취약성, CAA의 다축 제어, ROME의 가중치 수술까지 — LLM 내부 표현의 선형성이 어디까지 성립하는지 추적한다.

AI 2026.05.05 · 12 min Advanced Llm Reasoning Deep Dive · 7

LLM Reasoning의 세 가지 도약 — o1, o3, R1이 만든 새 균형점

Hidden CoT로 시작해 test-time search와 open distillation까지, 추론 모델의 세 가지 설계 결정이 만들어낸 경제·안전·신뢰성의 트레이드오프를 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 7

신경망을 해부할 수 있는가 — Mechanistic Interpretability의 세 장면

IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.

AI 2026.05.05 · 12 min Advanced Retrieval Rag Deep Dive · 7

RAG의 다음 단계: 그래프, 이미지, 긴 문맥은 무엇을 바꾸는가

entity-relation 그래프로 global question을 해결하는 GraphRAG부터 OCR 없이 PDF 페이지를 직접 임베딩하는 ColPali, Lost-in-the-Middle을 피하는 Late Chunking까지, RAG frontier의 설계 원리를 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Alignment Deep Dive · 1

LLM은 왜 처음부터 Misaligned인가

Next-token 예측이 인간 의도와 어긋나는 근본 원인부터 Bradley-Terry 모델, Plackett-Luce 랭킹, Alignment Tax까지 — Pretraining의 한계가 RLHF를 필연으로 만드는 이유를 추적한다.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 1

Bandit 알고리즘은 왜 로그 regret을 목표로 하는가

탐색-활용 딜레마의 수학적 정의부터 Lai-Robbins 하한과 minimax 관점까지, stochastic bandit 이론의 핵심 구조를 추적한다.

AI 2026.05.03 · 12 min Advanced Distributed Training Deep Dive · 1

분산 학습의 통신은 왜 전부 AllReduce로 귀결되는가

Broadcast부터 Ring AllReduce의 bandwidth-optimal 증명까지, 분산 학습 multi-GPU 통신의 6가지 collective operation과 NCCL 토폴로지 선택 원리를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 1

Pretrained LM은 어떻게 '언어를 이해'하게 되었나

Context-independent한 고정 벡터의 한계부터 Bi-LSTM, 3단계 fine-tuning recipe, Transformer의 병렬 self-attention까지 — 사전학습 언어모델 진화의 핵심 흐름을 추적한다.

AI 2026.05.03 · 11 min Advanced Deep Rl Deep Dive · 1

Tabular RL은 왜 Atari를 풀 수 없는가

state space 폭발과 coverage 불가능성이라는 근본 한계부터, Deadly Triad와 projection non-contraction을 거쳐 DNN 기반 근사가 필요한 이유까지 Deep RL의 출발점을 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 1

모델 효율화의 4축 — Memory, Compute, Latency, Throughput

Efficient ML의 모든 기법을 관통하는 4가지 축의 정의부터 Roofline model, 압축 분류의 직교성, 그리고 알고리즘 압축률과 wall-clock speedup의 괴리까지 추적한다.

AI 2026.05.03 · 12 min Advanced Nlp Foundations Deep Dive · 1

언어 모델이란 무엇인가 — 확률의 연쇄에서 ChatGPT까지

Chain rule of probability로 언어 모델을 엄밀하게 정의하고, N-gram의 sparse data 문제부터 Kneser-Ney smoothing의 continuation count 통찰까지, NLP 기초 이론의 흐름을 추적한다.

AI 2026.05.03 · 12 min Advanced Rl Foundations Deep Dive · 1

MDP는 왜 정확히 6개의 성분으로 정의되는가

Measurable space와 stochastic kernel부터 POMDP의 belief-MDP 변환까지, 강화학습 이론 전체를 떠받치는 수학적 토대를 추적한다.

AI 2026.05.03 · 12 min Intermediate Experimental Statistics Mlops Deep Dive · 1

ML 시스템은 왜 모델 그 이상인가

ML 부채의 90%가 알고리즘이 아닌 데이터·분포·인과에서 발생하는 이유부터 MLOps 성숙도 최적점 도출까지, production ML 시스템의 설계 철학을 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 1

Policy Gradient는 왜 직접 정책을 최적화하는가

Value-based의 한계부터 stochastic 최적 정책의 필요성, softmax·Gaussian 파라미터화, 그리고 J(θ)의 세 가지 등가 정식화까지 Policy Gradient의 출발점을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 1

LLM Fine-Tuning의 메모리 문제는 어디서 오는가

7B 모델 full fine-tuning의 112GB 메모리 분해부터 PEFT 3대 계열의 수학적 정당성까지, 파라미터 효율화의 공통 원리를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Inference Deep Dive · 1

LLM 추론은 왜 두 개의 다른 병목을 가지는가

Prefill의 compute-bound와 decode의 memory-bound가 같은 모델에서 공존하는 이유부터 Roofline 분석과 batch 최적화의 한계까지, LLM 서빙의 물리적 제약을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Pretraining Deep Dive · 1

LLM 학습 규모는 어떻게 결정되는가

Kaplan의 power law부터 Chinchilla의 joint law, Broken Scaling Law, 그리고 scaling law의 본질적 한계까지 — LLM 사전학습의 수학적 의사결정을 추적한다.

AI 2026.05.03 · 13 min Advanced 3d Neural Rendering Deep Dive · 1

3D 표현의 두 철학 — Explicit과 Implicit은 어떻게 다른가

정점과 면으로 위상을 명시하는 Explicit부터 level set으로 표면을 암시하는 Implicit까지, 3D Neural Rendering의 기초 표현 분류를 추적한다.

AI 2026.05.03 · 12 min Advanced Rnn Lstm Deep Dive · 1

RNN은 왜 sequence를 기억하는가

N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.

AI 2026.05.03 · 18 min Advanced Audio Speech Deep Dive · 1

디지털 오디오의 수학적 기반 — 샘플링부터 MFCC까지

Nyquist-Shannon 정리부터 STFT, Heisenberg 불확정성, mel-scale, MFCC까지 — 모든 현대 오디오 AI가 공유하는 하나의 수학적 철학을 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 1

Model-Free RL의 네 가지 근본 질문

Model-free RL의 출발점인 planning vs learning 패러다임 차이부터 sample complexity, GPI 통합 틀, exploration-exploitation 조건까지 — 이후 모든 알고리즘의 동기를 하나의 프레임으로 추적한다.

AI 2026.05.03 · 10 min Advanced Pytorch Internals Deep Dive · 1

PyTorch Tensor는 왜 Storage와 Metadata로 분리되어 있는가

단순한 다차원 배열처럼 보이는 Tensor가 실제로 6원소 튜플로 구성된 이유부터, stride가 CUDA 커널 선택을 바꾸고 view가 zero-copy인 이유까지 추적한다.

AI 2026.05.03 · 11 min Advanced Vision Transformer Deep Dive · 1

ViT는 왜 이미지를 patch로 쪼개는가

Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.

AI 2026.05.03 · 11 min Advanced Pytorch Internals Deep Dive · 2

PyTorch autograd는 어떻게 gradient를 계산하는가

Forward-mode JVP와 reverse-mode VJP의 비용 분석부터 computation graph의 동적 생성, custom Function 구현, double backward까지 — autograd의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 2

Bellman Equation은 왜 작동하는가

Discounted return의 수렴 조건부터 Bellman operator의 고정점 존재성까지, RL 가치 함수 이론의 수학적 토대를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 2

BERT는 어떻게 언어를 '이해'하는가

WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.

AI 2026.05.03 · 10 min Advanced Rnn Lstm Deep Dive · 2

RNN 학습은 왜 이렇게 설계됐는가

Cyclic 구조를 DAG로 펼치는 unrolling부터 BPTT 유도, truncation의 bias-memory 트레이드오프, 그리고 RTRL이 왜 다시 주목받는지까지, RNN 학습 알고리즘의 설계 결정을 추적한다.

AI 2026.05.03 · 10 min Advanced Audio Speech Deep Dive · 2

음성 인식의 세 시대 — LPC에서 WFST까지

Source-Filter Model의 물리적 직관부터 LPC, HMM-GMM, WFST 기반 ASR까지, 음성 처리 고전 파이프라인의 설계 철학과 각 모듈이 deep learning에 무엇을 남겼는지 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Pretraining Deep Dive · 2

LLM 사전학습의 설계 결정들은 어디서 오는가

C ≈ 6ND 유도부터 over-training의 경제학, μP의 width transfer, GNS 기반 배치 스케줄, WSD까지 — LLM 사전학습의 핵심 설계 결정을 하나의 프레임으로 추적한다.

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 2

Data Parallelism의 수학 — AllReduce는 왜 정확한가

Gradient averaging의 linearity 증명부터 critical batch size, async staleness의 수렴 조건까지, 분산 학습 Data Parallelism의 수학적 토대를 추적한다.

AI 2026.05.03 · 13 min Advanced Nlp Foundations Deep Dive · 2

단어의 의미는 어떻게 숫자가 되는가

Distributional hypothesis의 철학적 기반부터 PMI·LSA·SENNA까지, 현대 NLP 임베딩의 공통 토대를 추적한다.

AI 2026.05.03 · 12 min Advanced Deep Rl Deep Dive · 2

DQN은 어떻게 픽셀에서 인간을 이겼는가

Experience Replay로 i.i.d.를 복원하고, Target Network로 moving target을 고정하고, Reward Clipping으로 gradient를 제어하는 DQN 세 가지 트릭의 수학적 의미를 추적한다.

AI 2026.05.03 · 11 min Advanced Diffusion Model Deep Dive · 2

Diffusion Model의 손실함수는 어떻게 만들어지는가

VAE의 ELBO에서 출발해 노이즈 예측 parameterization을 거쳐 L_simple과 Improved DDPM의 세 가지 개선까지, 손실함수 설계의 핵심 결정들을 추적한다.

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 2

ViT의 데이터 허기는 어떻게 채워지는가

inductive bias 부재라는 ViT의 근본 제약부터, distillation·window attention·spatial reduction·hybrid·multi-scale까지 다섯 가지 해법의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Experimental Statistics Mlops Deep Dive · 2

Feature Store는 왜 단순 캐시가 아닌가

중복 계산·재사용 부재·stream/batch 비대칭이라는 세 문제의 근본 원인부터, skew가 O(Δ²)로 성능을 잠식하는 수학적 구조와 dual-store 아키텍처의 설계 결정까지 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Inference Deep Dive · 2

KV Cache는 왜 LLM 서빙의 핵심인가

Naive autoregressive decoding의 O(T²) 재계산 문제부터 GQA와 KVQuant를 거쳐 실제 서빙 메모리 예산까지, KV cache 최적화의 연쇄적 설계 결정을 추적한다.

AI 2026.05.03 · 9 min Advanced Policy Gradient Deep Dive · 2

REINFORCE는 왜 분산이 높은가

Log-derivative trick부터 score function의 zero-mean 성질, REINFORCE의 unbiasedness와 variance 폭발 메커니즘, reparameterization과의 tradeoff까지 policy gradient의 수학적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Efficiency Deep Dive · 2

LoRA는 왜 저차원 행렬 두 개로 충분한가

파라미터 절감의 수학적 근거부터 초기화 전략, 타깃 모듈 선택, 배포 방식, 태스크 벡터 산술까지 — LoRA 설계 결정의 통일된 논리를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 2

Monte Carlo RL은 왜 두 가지 방문 방식을 갖는가

First-visit과 every-visit의 bias 차이부터 off-policy importance sampling의 분산 폭발까지, MC 계열 알고리즘이 공유하는 하나의 긴장을 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 2

Pruning은 무엇을 제거하는가 — saliency에서 hardware까지

OBD의 2차 Taylor 전개부터 NVIDIA 2:4 Sparse Tensor Core까지, 뉴럴넷 프루닝의 모든 설계 결정이 하나의 질문으로 수렴하는 과정을 추적한다.

AI 2026.05.03 · 10 min Advanced 3d Neural Rendering Deep Dive · 2

NeRF의 수식은 어디서 왔나

Kajiya 1986의 rendering equation부터 Beer-Lambert law, volume rendering integral의 수치 적분까지, NeRF의 물리적 기반을 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 2

RLHF는 왜 세 단계여야 하는가

SFT의 format alignment부터 Reward Hacking의 정량화, Iterative RLHF의 수렴까지 — PPO가 붕괴하지 않으려면 무엇이 필요한가를 추적한다.

AI 2026.05.03 · 12 min Advanced Object Detection Deep Dive · 2

R-CNN에서 Mask R-CNN까지 — 두 단계 검출기의 진화

Region proposal의 병목부터 sub-pixel 정렬 오차까지, two-stage detector 5세대의 설계 결정과 그 연쇄적 해결 과정을 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Theory Deep Dive · 2

UCB 알고리즘군은 왜 단순한 공식으로 near-optimal 탐색을 달성하는가

OFU 원칙의 수학적 근거부터 UCB1 regret 증명, KL-UCB의 정보이론적 최적성, MOSS의 minimax 달성까지 — Bandit 탐색 이론의 통일 프레임워크를 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Inference Deep Dive · 3

LLM 서빙의 병목은 배치에 있다

Static batching의 67% GPU 낭비부터 Prefill-Decode 분리까지, LLM 추론 처리량을 3-5배 끌어올리는 배치 전략의 진화를 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Foundations Deep Dive · 3

Bellman Optimality Equation은 왜 Value Iteration을 보증하는가

최적 가치 함수의 정의부터 Bellman Optimality Operator의 수축 성질까지, Value Iteration 수렴의 수학적 근거를 추적한다.

AI 2026.05.03 · 11 min Advanced Vision Transformer Deep Dive · 3

Self-Supervised Learning의 세 가지 얼굴

Generative, Contrastive, Self-Distillation — label 없이 representation을 학습하는 세 패러다임의 손실함수, 수렴점, 그리고 트레이드오프를 하나의 프레임으로 추적한다.

AI 2026.05.03 · 12 min Intermediate Experimental Statistics Mlops Deep Dive · 3

데이터 품질은 왜 단일 숫자로 측정할 수 없는가

Schema drift와 data drift의 근본적 차이부터 Confident Learning의 노이즈 추정까지, ML 파이프라인의 첫 번째 방어선을 4개 차원으로 해부한다.

AI 2026.05.03 · 10 min Advanced Pytorch Internals Deep Dive · 3

PyTorch Dispatcher는 어떻게 동작하는가

aten::add 한 호출이 CPU·CUDA·Autograd kernel 중 어느 것으로 실행될지 결정하는 Dispatcher의 설계 철학부터 functorch의 함수형 변환까지, PyTorch 내부 구조를 추적한다.

AI 2026.05.03 · 10 min Advanced Deep Rl Deep Dive · 3

Q-Learning은 왜 항상 과대평가하는가

Jensen's inequality에서 비롯된 maximization bias의 수학적 구조부터 Double DQN이 online/target network 분리로 이를 제거하는 원리까지, 편향의 근원을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 3

DPO는 어떻게 Reward Model 없이 정책을 최적화하는가

KL-constrained 최적화 문제의 closed-form 해에서 시작해 reward-policy duality를 거쳐 DPO loss가 유도되기까지, Rafailov 2023의 수학적 논리를 단계별로 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 3

GPT에서 LLaMA까지: Decoder-Only LLM의 설계 철학

GPT-1의 generative pretraining 선택부터 GPT-3의 in-context learning 발현, 그리고 RoPE·GQA·RMSNorm으로 이어지는 modern LLM 최적화까지, decoder-only 패러다임이 어떻게 진화했는지 추적한다.

AI 2026.05.03 · 15 min Advanced 3d Neural Rendering Deep Dive · 3

NeRF는 왜 MLP 하나로 3D 장면 전체를 표현할 수 있는가

View-independent density와 view-dependent color의 분리부터 spectral bias, hierarchical sampling, hash encoding까지 — NeRF 설계 철학의 일관된 맥락을 추적한다.

AI 2026.05.03 · 14 min Advanced Audio Speech Deep Dive · 3

CTC에서 RNN-T까지 — 음성 인식의 alignment 문제는 어떻게 풀렸나

GMM-HMM의 forced alignment부터 CTC의 marginalization, LAS의 autoregressive decoder, RNN-T의 스트리밍까지 — end-to-end ASR의 설계 철학을 추적한다.

AI 2026.05.03 · 15 min Advanced Object Detection Deep Dive · 3

One-Stage Detector는 어떻게 두 단계를 하나로 녹였나

YOLOv1의 grid prediction부터 Focal Loss, modern YOLO, RT-DETR까지 — one-stage detection의 핵심 설계 결정과 그 trade-off를 추적한다.

AI 2026.05.03 · 11 min Advanced Policy Gradient Deep Dive · 3

Policy Gradient Theorem의 세 가지 얼굴

PG Theorem의 정확한 서술부터 PDL 기반·Direct Unrolling 두 증명, Q→A 치환의 근거, Deterministic PG까지, 하나의 gradient 공식이 어떻게 현대 RL 알고리즘 전체를 설계하는가.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 3

LLM Quantization은 왜 scale 결정의 문제인가

INT8부터 BitNet 1.58-bit까지, scale·granularity·calibration의 세 가지 선택이 어떻게 quantization accuracy의 Pareto frontier를 결정하는지 추적한다.

AI 2026.05.03 · 11 min Advanced Diffusion Model Deep Dive · 3

Score 함수에서 SDE까지 — Diffusion의 통합 이론

Langevin MCMC의 mode mixing 한계부터 VP/VE-SDE의 연속 시간 통합까지, score 기반 생성 모델의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Model Free Rl Deep Dive · 3

TD Learning은 왜 MC와 DP 사이에 서 있는가

TD error의 zero-mean 성질부터 SARSA의 on-policy 수렴, bias-variance 분해까지 — model-free RL의 핵심 설계 결정을 추적한다.

AI 2026.05.03 · 9 min Advanced Distributed Training Deep Dive · 3

Tensor Parallelism은 왜 AllReduce가 정확히 2번인가

단일 GPU 메모리 한계에서 출발해 Column-GELU-Row 구조의 2-AllReduce 최적성과 NVLink vs InfiniBand 효율 차이까지, Megatron-LM의 설계 결정을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Theory Deep Dive · 3

Thompson Sampling은 왜 파라미터 없이도 최적인가

Posterior sampling의 probability matching 원리부터 정보비율 최소화까지, Bayesian bandit 알고리즘의 통일 원리를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Pretraining Deep Dive · 3

LLM 사전학습이 불안정한 이유는 하나다

Loss spike의 4가지 근인부터 Embedding LR 분리, QK-norm, z-loss, RMSNorm, AdamW ε까지 — LLM 훈련 안정화 기법들이 공유하는 하나의 진단 프레임을 추적한다.

AI 2026.05.03 · 9 min Advanced Rnn Lstm Deep Dive · 3

RNN Gradient 소멸은 왜 피할 수 없었나

Pascanu 2013의 spectral radius 조건부터 saturation 문제, gradient clipping, orthogonal/identity 초기화까지 — RNN 학습 불안정성의 근본 원인과 그 대응의 계보를 추적한다.

AI 2026.05.03 · 10 min Advanced Nlp Foundations Deep Dive · 3

Word2Vec은 왜 작동하는가 — PMI의 다른 이름

Skip-gram과 CBOW의 설계 차이부터 Hierarchical Softmax·Negative Sampling의 수학적 유도, 그리고 SGNS의 optimal solution이 shifted PMI matrix임을 증명한 Levy & Goldberg 2014까지.

AI 2026.05.03 · 12 min Advanced Object Detection Deep Dive · 4

Anchor-Free Detection은 무엇을 해방시켰는가

Anchor의 6가지 설계 부담부터 FCOS의 per-pixel regression, CenterNet의 keypoint 환원, CornerNet의 pair matching까지 — anchor-free paradigm shift의 동기와 귀결을 추적한다.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 4

Policy Gradient의 분산은 어떻게 줄이는가

Baseline subtraction의 unbiasedness 증명부터 control variate 이론, Actor-Critic의 bootstrapping bias, entropy regularization까지 — variance reduction의 통일된 원리를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 4

Bellman operator는 왜 수렴이 보장되는가

Banach Fixed Point Theorem이 RL 수렴 보장의 뿌리인 이유부터 T^π와 T^* 의 contraction 증명, Value Iteration 정지 기준, γ→1 한계까지 추적한다.

AI 2026.05.03 · 13 min Advanced Pytorch Internals Deep Dive · 4

GPU 커널 성능은 무엇이 결정하는가

SM과 Warp 계층부터 Memory Coalescing, Bank Conflict, Warp Divergence, Reduction 최적화까지 — CUDA 커널 성능을 지배하는 하드웨어 원칙을 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Pretraining Deep Dive · 4

LLM 사전학습 데이터는 어떻게 설계되는가

말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.

AI 2026.05.03 · 9 min Advanced Diffusion Model Deep Dive · 4

DDIM은 왜 1000 step을 10 step으로 줄일 수 있는가

DDPM 샘플링 병목의 근본 원인부터 Non-Markovian forward process, DDIM sampling 공식, Probability Flow ODE와 DPM-Solver의 고차 수렴까지, 확산 모델 가속의 수학적 구조를 추적한다.

AI 2026.05.03 · 10 min Advanced Vision Transformer Deep Dive · 4

DINO는 왜 레이블 없이도 객체를 '본다'

Teacher-student 증류와 multi-crop 일관성 손실이 어떻게 semantic segmentation과 k-NN 분류 능력을 만들어내는지, DINO부터 DINOv2까지 붕괴 방지 메커니즘과 스케일링 법칙을 추적한다.

AI 2026.05.03 · 9 min Advanced Efficient Ml Deep Dive · 4

Knowledge Distillation은 왜 단순 압축이 아닌가

Hinton 2015의 soft target 원리부터 dark knowledge, feature distillation, relation-based KD, 그리고 self-distillation까지 — KD의 본질이 function transfer임을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 4

DPO 이후의 선택들 — IPO, KTO, SimPO, ORPO, GRPO는 무엇을 고쳤는가

DPO의 Bradley-Terry 가정이 낳은 overfit 문제부터 PPO의 critic 제거까지, 최신 alignment 기법 5종의 설계 결정과 트레이드오프를 추적한다.

AI 2026.05.03 · 12 min Advanced Experimental Statistics Mlops Deep Dive · 4

분포 비교 메트릭은 무엇을 측정하는가

Covariate shift·Label shift·Concept drift의 수학적 분류부터 KS·Chi²·PSI·MMD·Wasserstein까지, drift detection 메트릭이 각 shift 유형을 어떻게 잡는지 추적한다.

AI 2026.05.03 · 12 min Advanced Deep Rl Deep Dive · 4

Rainbow DQN의 다섯 가지 개선은 왜 함께 작동하는가

Dueling Network의 분해부터 Noisy Net의 암묵적 탐험까지, Rainbow를 구성하는 다섯 요소가 공유하는 설계 철학과 그 수학적 근거를 추적한다.

AI 2026.05.03 · 12 min Advanced 3d Neural Rendering Deep Dive · 4

3D Gaussian Splatting은 왜 NeRF보다 100배 빠른가

Anisotropic Gaussian 파라미터화부터 EWA Projection, Tile-based Rasterization, Adaptive Density Control까지 — 3DGS의 모든 설계 결정이 수렴하는 하나의 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Nlp Foundations Deep Dive · 4

GloVe는 왜 두 패러다임의 통합인가

LSA의 global matrix와 Word2Vec의 vector arithmetic이 왜 따로는 불완전한지, GloVe의 ratio formulation이 두 강점을 어떻게 하나의 objective로 결합하는지 추적한다.

AI 2026.05.03 · 10 min Advanced Rl Theory Deep Dive · 4

Contextual Bandit에서 GP-UCB까지: 불확실성을 측정하는 하나의 원리

MAB를 넘어 context, 선형 모델, 커널 함수로 확장되는 bandit 이론의 핵심 — confidence ellipsoid와 information gain이 같은 철학에서 나온다는 것을 추적한다.

AI 2026.05.03 · 12 min Advanced Rnn Lstm Deep Dive · 4

LSTM은 어떻게 vanishing gradient를 피하는가

Hochreiter 1997의 CEC 비전부터 forget gate 초기화, GRU의 단순화, variants의 ablation 결과까지 — LSTM 설계 철학의 핵심을 추적한다.

AI 2026.05.03 · 13 min Advanced Audio Speech Deep Dive · 4

ASR 아키텍처는 어떻게 진화했나

Conformer의 conv+attention 결합부터 Wav2Vec 2.0의 self-supervised contrastive 학습, HuBERT의 iterative refinement, Whisper의 약지도 대규모 학습까지 — 현대 ASR 설계 철학의 변화를 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Inference Deep Dive · 4

PagedAttention은 왜 GPU 메모리 낭비를 95%까지 줄이는가

Contiguous KV cache의 60-80% 메모리 낭비 원인부터 OS paging 차용, PagedAttention 알고리즘, prefix caching, vLLM 통합 아키텍처까지, LLM 서빙 메모리 효율의 핵심을 추적한다.

AI 2026.05.03 · 12 min Advanced Distributed Training Deep Dive · 4

Pipeline Bubble은 어떻게 줄어드는가

Naive pipeline의 (P-1)/P idle ratio부터 GPipe, 1F1B, Interleaved, Chimera까지 — bubble 감소 4세대의 수학적 전개와 메모리 트레이드오프를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 4

Q-Learning 수렴 증명의 통일된 구조

Q-Learning 업데이트 규칙부터 Watkins–Dayan 수렴 정리, Robbins–Monro 조건, JJS 일반화, Double Q-Learning의 최대화 편향 제거까지, model-free RL의 수학적 뼈대를 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 4

QLoRA는 어떻게 65B 모델을 GPU 한 장에 올렸나

NF4 양자화, LoRA 어댑터, Paged Optimizer가 합쳐지는 QLoRA의 설계 결정부터 Full FT와의 성능 격차가 1% 미만인 이유까지, 메모리 효율 fine-tuning의 전체 그림을 추적한다.

AI 2026.05.03 · 10 min Advanced Pretrained Lm Deep Dive · 4

T5는 왜 모든 NLP task를 text-to-text로 통일했는가

T5의 text-to-text 패러다임부터 span corruption, Prefix LM, UL2의 Mixture-of-Denoisers, 그리고 encoder-decoder가 현대 LLM의 decoder-only로 수렴하지 못한 이유까지 추적한다.

AI 2026.05.03 · 14 min Intermediate Rnn Lstm Deep Dive · 5

RNN 변형들이 공유하는 하나의 질문

양방향 컨텍스트부터 외부 메모리, 무작위 저수지까지 — RNN 확장의 네 가지 방향이 모두 같은 병목을 다른 방식으로 돌파한다는 것을 추적한다.

AI 2026.05.03 · 12 min Advanced Llm Alignment Deep Dive · 5

AI가 AI를 감시할 수 있는가 — Constitutional AI부터 Scalable Oversight까지

인간 라벨 없이 alignment 데이터를 생성하는 Self-Critique부터, AI judge로 RLHF를 대체하는 RLAIF, 스스로를 개선하는 Self-Rewarding, 그리고 약한 감독자가 강한 모델을 align하는 Scalable Oversight 이론까지 추적한다.

AI 2026.05.03 · 10 min Advanced Pytorch Internals Deep Dive · 5

PyTorch Custom Kernel의 핵심은 HBM을 피하는 것이다

cpp_extension JIT 컴파일부터 Triton block-level 추상화, cuBLAS/cuDNN 선택 기준, kernel fusion의 정량적 효과까지, PyTorch가 GPU 메모리를 다루는 방식을 추적한다.

AI 2026.05.03 · 11 min Advanced Object Detection Deep Dive · 5

DETR은 왜 NMS 없이 작동하는가

End-to-end set prediction 아이디어부터 Hungarian matching의 수학적 근거, slow convergence의 원인과 DINO·RT-DETR의 해결까지, DETR 계열 detection의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Deep Rl Deep Dive · 5

Return을 분포로 보면 무엇이 달라지는가

기댓값 하나로 축약된 Q-value가 놓치는 것들 — 분산, 꼬리 위험, 다봉 분포 — 부터 Wasserstein contraction, C51, QR-DQN, 그리고 Rainbow ablation의 실증까지, Distributional RL의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 5

GPI — 모든 RL 알고리즘을 하나의 틀로 보는 법

Policy Evaluation의 수렴 보장부터 Policy Improvement Theorem, Value Iteration의 Bellman residual, 그리고 GPI가 Q-learning과 Actor-Critic까지 통합하는 방식을 추적한다.

AI 2026.05.03 · 13 min Advanced 3d Neural Rendering Deep Dive · 5

4D 장면은 어떻게 표현되는가 — Dynamic Neural Rendering의 설계 철학

Canonical space 분리부터 Topology change, 4D Gaussian Splatting, Monocular 재구성까지, 동적 장면 표현의 핵심 원리를 추적한다.

AI 2026.05.03 · 8 min Advanced Policy Gradient Deep Dive · 5

GAE는 왜 λ 하나로 bias-variance를 제어할 수 있는가

TD residual의 bootstrapping bias부터 GAE의 지수적 가중 평균 유도, λ의 두 극한, 역순 O(T) 구현까지 — advantage estimation의 핵심 설계를 추적한다.

AI 2026.05.03 · 11 min Advanced Diffusion Model Deep Dive · 5

Classifier Guidance에서 Negative Prompt까지, 조건부 생성의 수학

외부 분류기의 gradient로 시작해 CFG의 implicit classifier, cross-attention, negative prompt의 compositional score까지 — 조건부 diffusion의 통일된 수학 구조를 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 5

모델 압축의 4축은 어떻게 하나의 철학으로 수렴하는가

Low-rank factorization의 Eckart-Young 정리부터 LoRA의 intrinsic rank 가설, Tucker 분해, Hybrid recipe까지 — 학습된 가중치의 redundancy를 제거하는 통일된 관점을 추적한다.

AI 2026.05.03 · 12 min Advanced Vision Transformer Deep Dive · 5

Masked Image Modeling은 무엇을 학습하는가

BEiT의 discrete token부터 MAE의 75% masking, SimMIM의 단순화, MaskFeat·MVP의 target 추상도까지 — MIM 계열의 설계 결정이 공유하는 하나의 원칙을 추적한다.

AI 2026.05.03 · 14 min Advanced Experimental Statistics Mlops Deep Dive · 5

Ground Truth 없이도 모델을 믿을 수 있는가

레이블 도착 지연부터 예측 드리프트, 캘리브레이션, 공정성 불가능 정리, 알림 시스템 설계까지 — production ML monitoring의 다섯 가지 층위를 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 5

MoE는 왜 같은 연산으로 더 큰 모델처럼 동작하는가

Sparse activation의 정식화부터 load balancing loss, token dropping, 그리고 scaling law까지 — MoE가 dense를 넘어서는 이유를 추적한다.

AI 2026.05.03 · 12 min Advanced Model Free Rl Deep Dive · 5

n-step Return에서 TD(λ)까지: 하나의 스펙트럼

TD(0)와 MC 사이의 연속체를 n-step return이 어떻게 매개변수화하는가. bias-variance 트레이드오프의 수학적 분해부터 eligibility trace의 세 가지 구현까지.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 5

PAC-MDP: RL에서 '충분히 탐색했다'는 것을 어떻게 증명하는가

샘플 복잡도의 정형적 정의부터 R-MAX의 다항식 보장, 하한 증명까지 — PAC-MDP 이론이 탐색-활용 딜레마를 수학으로 환원하는 방식을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Inference Deep Dive · 5

Speculative Decoding은 왜 빠르면서도 정확한가

Draft-target 이중 구조의 시스템 복잡성부터 Medusa·EAGLE·Lookahead의 설계 트레이드오프, Best-of-N의 경제성 분석까지, LLM 추론 가속의 핵심 원리를 추적한다.

AI 2026.05.03 · 12 min Intermediate Nlp Foundations Deep Dive · 5

Tokenizer는 왜 Subword를 선택했는가

OOV 문제의 본질부터 BPE·WordPiece·Unigram·SentencePiece의 설계 철학까지, 현대 LLM이 Subword를 표준으로 삼은 이유를 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Pretraining Deep Dive · 5

토큰화는 왜 모델의 성능을 결정하는가

BPE의 탐욕 병합부터 Unigram LM의 전역 확률 최적화, 어휘 크기 스케일링 법칙까지 — 토큰화 설계 결정이 LLM 성능에 미치는 영향을 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 5

사전학습 모델을 어떻게 내 task에 맞게 바꾸는가

Linear probe와 full fine-tuning의 수학적 차이부터 EWC, LoRA까지 — pretrained representation을 downstream task에 적응시키는 전략의 통합 원리를 추적한다.

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 5

ZeRO는 왜 단계적으로 분산하는가

DDP의 16ψ 메모리 병목에서 출발해 ZeRO-1/2/3와 FSDP의 설계 결정까지, per-GPU 메모리를 1/N로 줄이는 원리를 추적한다.

AI 2026.05.03 · 16 min Advanced Audio Speech Deep Dive · 5

TTS는 어떻게 사람 목소리를 학습하는가

Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.

AI 2026.05.03 · 13 min Advanced Experimental Statistics Mlops Deep Dive · 6

A/B 테스트의 통계적 엄밀성은 어디서 오는가

가설 검정 프레임워크부터 CUPED 분산 감소, 다중 검정 보정, Sequential Testing, Bayesian 의사결정까지 — 현대 A/B 테스트를 지탱하는 통계적 토대를 추적한다.

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 6

Transformer 학습에서 Activation Memory는 왜 폭발하는가

Forward pass 활성화 메모리의 수학적 분해부터 Gradient Checkpointing, Selective Recomputation, Sequence Parallelism까지 — 대규모 모델 학습의 메모리 병목을 추적한다.

AI 2026.05.03 · 12 min Advanced Policy Gradient Deep Dive · 6

Actor-Critic은 어떻게 진화했는가

Basic AC의 two-timescale 수렴부터 A3C의 비동기 병렬화, A2C의 동기 배치, PPO의 clipped surrogate, IMPALA의 V-trace 오프-폴리시 보정까지, 하나의 설계 철학이 어떻게 확장되는지 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Pretraining Deep Dive · 6

LLM 아키텍처 설계의 다섯 가지 선택

깊이-너비 비율부터 KV 캐시, MoE 라우팅, 위치 인코딩, 활성화 함수까지 — LLM 아키텍처의 모든 설계 결정이 하나의 원칙으로 수렴하는 이유를 추적한다.

AI 2026.05.03 · 11 min Advanced Object Detection Deep Dive · 6

COCO mAP 너머 — Detection Benchmark의 한계와 진화

COCO의 mAP@[.5:.95]가 detection의 표준이 된 이유부터 LVIS long-tail, open-vocabulary, domain adaptation까지, closed-set 가정이 무너지는 과정을 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Efficiency Deep Dive · 6

Flash Attention은 어떻게 T² 메모리 장벽을 넘었나

표준 Attention의 O(T²) HBM 병목의 수학적 근원부터 Flash Attention 1/2/3의 핵심 아이디어, 그리고 PagedAttention·Ring·Linear Attention까지, 효율적 Attention 설계의 전체 계보를 추적한다.

AI 2026.05.03 · 14 min Advanced Nlp Foundations Deep Dive · 6

FastText에서 ELMo까지 — 임베딩은 어떻게 문맥을 얻었는가

Word2Vec의 OOV 한계를 char n-gram 합산으로 돌파한 FastText부터, char-CNN과 biLSTM으로 같은 단어에 다른 벡터를 부여한 ELMo까지, 정적 임베딩이 문맥 임베딩으로 진화한 경로를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 6

In-Context Learning은 어떻게 작동하는가

Weight 업데이트 없이 몇 개의 demo만으로 task를 수행하는 ICL의 현상부터, Attention이 Gradient Descent를 구현한다는 수학적 증명, 그리고 Task Vector가 task 정보를 encoding하는 방식까지 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 6

FlashAttention은 어떻게 O(N²) 메모리 벽을 넘었나

Standard attention의 HBM 병목 원인부터 Online Softmax의 결합법칙, FlashAttention의 tiling 전략, v2/v3의 하드웨어 최적화까지, attention 효율화의 설계 계보를 추적한다.

AI 2026.05.03 · 12 min Advanced Diffusion Model Deep Dive · 6

Stable Diffusion의 아키텍처는 왜 이렇게 생겼나

VAE 48배 압축부터 UNet FiLM 주입, DiT 스케일링 법칙, MM-DiT 양방향 정보 흐름, Cascaded SR까지 — 확산 모델 아키텍처의 설계 결정을 추적한다.

AI 2026.05.03 · 10 min Advanced Llm Inference Deep Dive · 6

Long Context LLM — 두 개의 완전히 다른 문제

Prefill의 O(L²) 계산 폭발과 Decode의 KV 메모리 누적이 왜 별개의 병목인지, StreamingLLM·YaRN·Ring Attention이 각각 어느 문제를 해결하는지 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Foundations Deep Dive · 6

RL 성능 분석의 언어 — State Distribution부터 근사 오차까지

Performance Difference Lemma의 닭과 달걀 문제부터 greedy 정책 손실의 수학적 bound까지, 현대 RL 이론이 공유하는 하나의 언어를 추적한다.

AI 2026.05.03 · 11 min Advanced Rl Theory Deep Dive · 6

MDP regret의 세 가지 얼굴 — UCRL2, PSRL, LSVI-UCB

Bandit regret을 MDP로 확장할 때 등장하는 diameter D의 역할부터, Bayesian posterior sampling과 linear function approximation이 regret scaling을 어떻게 다르게 압축하는지 추적한다.

AI 2026.05.03 · 14 min Advanced Pytorch Internals Deep Dive · 6

Mixed Precision Training의 수학 — FP16은 왜 위험하고 BF16은 왜 안전한가

IEEE 754 비트 구조부터 FP16 언더플로우의 정량적 분석, Loss Scaling의 수학적 정당성, BF16·TF32·Stochastic Rounding까지 — Mixed Precision의 설계 결정을 하나의 원리로 추적한다.

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 6

Vision-Language Model은 어떻게 이미지를 '이해'하는가

CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.

AI 2026.05.03 · 13 min Advanced Audio Speech Deep Dive · 6

Neural Audio Codec은 왜 VQ를 버리지 못하는가

Vector Quantization의 기본 원리부터 RVQ·Encodec의 bitrate scalability, semantic/acoustic token의 계층적 분리까지, 현대 audio codec 설계를 관통하는 공통 철학을 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

RLHF는 왜 길고, 느리고, 불안정한가

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.

AI 2026.05.03 · 13 min Advanced Deep Rl Deep Dive · 6

Rainbow에서 MuZero까지 — DQN 진화의 통일된 논리

6개 컴포넌트의 직교성부터 분산 학습, 잠재 공간 계획까지, Rainbow 이후 DQN 계보가 공유하는 하나의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Rnn Lstm Deep Dive · 6

Attention은 어떻게 Seq2Seq의 병목을 뚫었는가

Sutskever 2014의 고정 벡터 압축 문제부터 Bahdanau·Luong 어텐션의 설계 결정, 커버리지 메커니즘과 Pointer Network까지, 시퀀스 변환 아키텍처의 진화를 추적한다.

AI 2026.05.03 · 10 min Advanced 3d Neural Rendering Deep Dive · 6

Text-to-3D는 왜 2D에서 시작하는가

3D 데이터 부족이라는 근본 제약부터 Score Distillation Sampling의 유도, Mode-Seeking 한계, VSD의 해결, Multi-View 일관성까지 — Text-to-3D의 설계 결정을 추적한다.

AI 2026.05.03 · 13 min Advanced Distributed Training Deep Dive · 7

분산 학습의 네 가지 축 — 3D Parallelism, MoE, Checkpoint, Elastic

70B+ 모델 학습에서 DP×TP×PP 그룹 분해부터 MoE all-to-all, 비동기 체크포인트, Elastic 회복 효율까지 — 분산 학습 시스템의 설계 원칙을 추적한다.

AI 2026.05.03 · 12 min Advanced Diffusion Model Deep Dive · 7

Diffusion 샘플링 가속은 어떻게 가능한가

수백 스텝이 필요한 reverse process를 1-4 스텝으로 줄이는 세 가지 전략 — Consistency Model, Rectified Flow, Flow Matching, Distillation — 의 공통 원리를 추적한다.

AI 2026.05.03 · 18 min Advanced Object Detection Deep Dive · 7

Video에서 Foundation까지 — 객체 인식의 확장 경계

단일 프레임 탐지의 시간적 한계부터 3D 공간 추론, 통합 분할, 그리고 프롬프트 기반 Foundation Model까지 — 객체 인식 파이프라인이 어떻게 진화하는지 추적한다.

AI 2026.05.03 · 13 min Advanced Rl Theory Deep Dive · 7

Best Arm Identification는 어떻게 최적에 수렴하는가

Pure Exploration의 두 프레임워크(Fixed-Confidence vs Fixed-Budget)의 근본적 차이부터 Instance-Optimal 알고리즘까지, BAI 이론의 핵심 구조를 추적한다.

AI 2026.05.03 · 11 min Advanced Experimental Statistics Mlops Deep Dive · 7

인과 추론의 네 가지 무기 — RCT부터 Doubly Robust까지

Potential outcomes의 fundamental problem부터 DiD·RDD의 자연 실험, IPW의 분산 위험, 그리고 DR의 이중 보험까지 — causal ML의 식별 전략을 하나의 흐름으로 추적한다.

AI 2026.05.03 · 11 min Advanced Pytorch Internals Deep Dive · 7

torch.compile은 Python 코드를 어떻게 GPU 커널로 바꾸는가

Dynamo의 바이트코드 캡처부터 AOTAutograd의 심볼릭 역전파, Inductor의 커널 퓨전, 분산 학습과의 통합까지, PT 2.0 컴파일 파이프라인의 설계 철학을 추적한다.

AI 2026.05.03 · 16 min Advanced Deep Rl Deep Dive · 7

DDPG는 왜 불안정한가 — Continuous Control의 설계와 균열

DQN이 연속 행동 공간에서 실패하는 수학적 이유부터 DDPG의 결정론적 정책 기울기 유도, Q-과대추정과 탐험 민감성까지, continuous control의 핵심 트레이드오프를 추적한다.

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 7

Vision Transformer는 어떻게 픽셀을 넘어섰나

토큰 기반 이미지 생성부터 Scaling Law, 3D 장면 표현, 영상 이해, 세계 모델까지 — Vision Transformer 설계 철학의 공통 실을 추적한다.

AI 2026.05.03 · 12 min Intermediate Nlp Foundations Deep Dive · 7

Embedding 평가는 왜 두 가지가 필요한가

Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.

AI 2026.05.03 · 12 min Advanced 3d Neural Rendering Deep Dive · 7

단일 이미지에서 3D까지 — LRM이 바꾼 패러다임

SDS의 수백 초에서 LRM의 5초로, 3D 재구성의 병목이 어디서 어떻게 해소됐는지 triplane 회귀부터 DUSt3R의 dense pointmap, 공간 컴퓨팅 응용까지 추적한다.

AI 2026.05.03 · 14 min Advanced Rl Foundations Deep Dive · 7

RL에서 함수 근사는 왜 불안정한가

무한 상태 공간의 선형 근사부터 Deadly Triad의 발산, Linear MDP의 수렴 보장, Bisimulation 기반 상태 추상화까지 — 함수 근사의 수렴 조건을 추적한다.

AI 2026.05.03 · 12 min Advanced Rnn Lstm Deep Dive · 7

RNN이 Transformer에 밀린 이유, 그리고 Mamba가 돌아온 이유

GPU 병렬성 한계부터 선택적 상태 공간 모델까지, 시퀀스 아키텍처 30년의 진화를 관통하는 하나의 질문을 추적한다.

AI 2026.05.03 · 13 min Advanced Model Free Rl Deep Dive · 7

Model-Free RL의 수렴은 왜 이렇게 까다로운가

Deadly Triad의 세 조건이 동시에 만족될 때 발산이 일어나는 이유부터, Experience Replay·Reward Shaping·Deep RL의 공학적 우회까지, Model-Free RL 수렴 이론의 전체 지형을 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 7

Instruction에서 Reasoning까지 — LLM은 어떻게 생각을 배우는가

Instruction Tuning의 zero-shot 일반화 원리부터 Chain-of-Thought의 창발, Self-Consistency의 경로 앙상블, 그리고 'Emergent Abilities'가 측정 방법의 산물일 수 있다는 반론까지 추적한다.

AI 2026.05.03 · 10 min Advanced Policy Gradient Deep Dive · 7

NPG에서 TRPO까지 — Policy Gradient가 진화하는 이유

Vanilla PG의 step size 민감성 문제부터 Fisher metric, 계산 가능성의 병목, 그리고 TRPO의 신뢰 영역 제약까지, natural gradient가 현대 RL의 이론적 뼈대가 되는 과정을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 7

LLM 의 Safety 는 하나의 벡터로 요약될 수 있는가

Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.

AI 2026.05.03 · 13 min Advanced Efficient Ml Deep Dive · 7

LLM을 어떻게 배포할 것인가 — serving 스택의 네 층

KV cache 단편화 해소부터 mobile NPU 컴파일까지, LLM inference를 실용적으로 만드는 PagedAttention·Speculative Decoding·Continuous Batching·Edge Deployment의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Llm Inference Deep Dive · 7

LLM Serving의 모든 선택은 결국 비용-지연 트레이드오프다

vLLM·TGI·TensorRT-LLM·SGLang의 메모리 전략부터 Tensor/Pipeline Parallel 배포 패턴, TTFT·Goodput 측정, Disaggregated Serving 절감까지 — LLM 추론 시스템의 설계 철학을 추적한다.

AI 2026.05.03 · 9 min Advanced Llm Efficiency Deep Dive · 7

Speculative Decoding은 어떻게 분포를 보존하면서 빠른가

Autoregressive 병목의 수학적 구조부터 Rejection Sampling의 Losslessness 증명, Medusa·EAGLE·Lookahead까지 — draft 전략의 설계 철학을 추적한다.

AI 2026.05.03 · 15 min Advanced Audio Speech Deep Dive · 7

오디오 LM의 공통 설계 언어 — 토큰, 계층, 스트림

AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 1

딥러닝의 수학은 왜 극한에서 시작하는가

ε-δ 언어부터 Subgradient까지, 경사하강법·역전파·ReLU가 작동하는 이유를 하나의 수렴 철학으로 추적한다.

AI 2026.04.28 · 12 min Advanced Bayesian Ml Deep Dive · 1

베이즈 추론의 다섯 가지 근본 질문

Prior에서 Posterior까지, MLE·MAP·Full Bayesian의 등가성부터 Bernstein–von Mises 수렴까지 베이지안 ML의 핵심 구조를 추적한다.

AI 2026.04.28 · 13 min Advanced Generalization Theory Deep Dive · 1

고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가

ResNet50의 VC 차원이 10의 10제곱에 달하는 이유부터 uniform convergence의 구조적 실패, implicit regularization, 그리고 4가지 일반화 퍼즐까지 — 고전 이론이 어디서 깨지는지 추적한다.

AI 2026.04.28 · 13 min Advanced Graphical Models Deep Dive · 1

그래프 모델의 언어 — 조건부 독립에서 Moralization까지

조건부 독립의 대수 구조부터 Bayesian Network 인수분해, d-separation, Hammersley–Clifford 정리, 그리고 BN–MRF 변환의 표현력 한계까지, 확률 그래프 모델의 핵심 원리를 추적한다.

AI 2026.04.28 · 14 min Advanced Cnn Deep Dive · 1

CNN의 수학적 토대 — Convolution부터 Frequency까지

Discrete convolution의 정의와 cross-correlation의 차이부터, Translation equivariance의 군론적 증명, Toeplitz 행렬 표현, 그리고 Spectral bias까지 CNN의 설계 철학을 추적한다.

AI 2026.04.28 · 14 min Advanced Convex Optimization Deep Dive · 1

볼록 집합이 최적화에 황금 티켓을 부여하는 이유

선분 하나가 닫혀 있다는 조건이 어떻게 전역 최적 보장, 쌍대 이론, SVM, LP 꼭짓점 탐색까지 연결되는가를 추적한다.

AI 2026.04.28 · 13 min Advanced Information Theory Deep Dive · 1

왜 ML의 모든 손실 함수에는 로그가 있는가

Shannon의 세 공리에서 $-\log p$가 유일하게 강제되는 이유부터, 엔트로피·상호정보량·최대 엔트로피 분포까지 — ML 수식 속 로그의 기원을 추적한다.

AI 2026.04.28 · 14 min Advanced Stochastic Processes Deep Dive · 1

확률과정을 정의한다는 것은 무엇인가

sample path, 유한차원 분포, 필트레이션, 정상성 — 확률과정의 네 가지 핵심 언어가 어떻게 하나의 수학적 구조를 이루는지, AI 모델 설계까지 추적한다.

AI 2026.04.28 · 11 min Advanced Optimization Theory Deep Dive · 1

Gradient Descent의 수렴 보장은 어디까지인가

Steepest descent의 기하학적 유도부터 convex/strongly convex/non-convex 수렴 속도 비교, proximal gradient까지 — GD 계열 알고리즘의 이론적 한계를 추적한다.

AI 2026.04.28 · 12 min Advanced Gnn Deep Dive · 1

그래프를 행렬로 보는 순간 GNN이 보인다

Adjacency matrix의 정의부터 Graph Fourier Transform과 PageRank의 연결까지, GNN의 모든 연산이 공유하는 수학적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Sde Deep Dive · 1

이토 적분은 왜 경로별로 정의할 수 없는가

브라운 운동의 무한변동에서 출발해 이토 등장성, 마팅게일 성질, Stratonovich 변환까지 — 확산 모델의 수학적 기초를 추적한다.

AI 2026.04.28 · 12 min Advanced Kernel Methods Deep Dive · 1

Kernel은 왜 Positive Definite여야 하는가

PD kernel의 정의부터 Mercer 분해, characteristic·universal 성질까지 — '함수를 내적으로 표현할 수 있다'는 보장이 SVM, GP, MMD 전체를 어떻게 떠받치는지 추적한다.

AI 2026.04.28 · 11 min Advanced Regularization Theory Deep Dive · 1

Regularization은 Prior다 — L1/L2부터 Group Sparsity까지

L2가 Gaussian prior의 negative log이고 L1이 Laplace prior인 이유부터, 기하학적 sparsity와 SVD shrinkage, 그리고 Elastic Net/Group Lasso의 구조적 확장까지 하나의 Bayesian 프레임으로 추적한다.

AI 2026.04.28 · 12 min Advanced Statistical Learning Theory Deep Dive · 1

학습이란 무엇인가 — 통계적 학습 이론의 기초 언어

진짜 위험과 경험 위험의 차이부터 No Free Lunch 정리와 iid 가정이 깨지는 경우까지, 통계적 학습 이론의 핵심 정식화를 추적한다.

AI 2026.04.28 · 13 min Advanced Ml Fundamentals Deep Dive · 1

선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지

가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.

AI 2026.04.28 · 13 min Advanced Information Geometry Deep Dive · 1

분포 공간이 휘어진 이유 — 정보기하의 기초

확률분포족을 다양체로 보는 발상부터 Fisher-Rao 측지선, Levi-Civita 연결의 유일성까지, 정보기하의 기하학적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Probability Theory Deep Dive · 1

확률은 왜 공리로 정의되는가 — Kolmogorov가 σ-대수를 도입한 이유

Laplace의 고전적 확률부터 Banach-Tarski 역설까지, 측도론적 확률 공리화의 필연성과 ML 기반으로서의 통일 프레임을 추적한다.

AI 2026.04.28 · 14 min Advanced Functional Analysis Deep Dive · 1

무한차원은 왜 다른가 — 함수해석학이 AI에 던지는 질문

거리공간의 완비성부터 Riesz 보조정리까지, 유한차원의 직관이 무한차원에서 무너지는 지점과 그 귀결로서의 정규화를 추적한다.

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 1

TRPO·PPO의 이론적 뿌리 — Performance Difference Lemma

두 정책의 성능 차이를 advantage로 분해하는 PDL부터 surrogate objective, trust region bound, monotonic improvement 보장까지, advanced RL의 단일 이론 체계를 추적한다.

AI 2026.04.28 · 12 min Advanced Neural Network Theory Deep Dive · 1

신경망 이론의 네 가지 뿌리 — 퍼셉트론부터 활성화 함수까지

Novikoff 수렴 정리의 (R/γ)² bound부터 XOR의 선형 분리 불가능성, MLP의 합성함수 구조, 활성화 함수별 gradient 안정성까지, 현대 딥러닝 이론의 기반을 추적한다.

AI 2026.04.28 · 13 min Advanced Mathematical Statistics Deep Dive · 1

통계 추론은 무엇을 가정하고 있는가

통계 모델의 집합론적 정의부터 식별가능성, 표집분포, CLT의 유한표본 오차, 그리고 t·F 통계량의 수학적 뿌리까지 — 추론이 의존하는 가정들을 추적한다.

AI 2026.04.28 · 13 min Advanced Linear Algebra Deep Dive · 1

선형대수의 모든 정리는 왜 그렇게 많은 곳에서 다시 나타나는가

벡터공간 공리부터 쌍대공간까지, '추상화 한 번으로 무한히 많은 객체를 동시에 다룬다'는 선형대수의 핵심 철학을 추적한다.

AI 2026.04.28 · 12 min Advanced Cnn Deep Dive · 2

CNN 설계의 다섯 가지 선택은 하나의 문제에서 나온다

Convolution의 forward/backward 수학부터 depthwise separable의 텐서 분해까지, CNN이 '어디서 무엇을 볼 것인가'를 결정하는 방식을 추적한다.

AI 2026.04.28 · 13 min Advanced Statistical Learning Theory Deep Dive · 2

집중부등식은 왜 ML 이론의 기초인가

Markov의 indicator trick부터 Bernstein의 분산 의존 경계까지, 집중부등식의 위계와 각 부등식이 ML 이론에서 담당하는 역할을 추적한다.

AI 2026.04.28 · 11 min Advanced Convex Optimization Deep Dive · 2

볼록 함수의 세 가지 얼굴 — Jensen, Epigraph, Gradient

볼록 함수를 정의하는 세 동치 조건부터 강볼록성·조건수·켤레 함수까지, 경사하강법의 수렴 보장이 어디서 오는지를 추적한다.

AI 2026.04.28 · 13 min Advanced Stochastic Processes Deep Dive · 2

마르코프 체인의 네 가지 얼굴 — 전이행렬에서 에르고딕 정리까지

마르코프 성질의 수학적 정의부터 상태 분류, Perron-Frobenius 정리, 수렴률의 스펙트럴 해석, Detailed Balance, 에르고딕 정리까지 — MCMC와 강화학습의 이론적 토대를 한 줄기로 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 2

Dropout은 왜 세 가지 얼굴을 가지는가

앙상블 근사, Variational Inference, Adaptive L2라는 세 해석이 하나의 알고리즘에서 어떻게 공존하는지, 그리고 변종들이 그 철학을 어떻게 확장하는지 추적한다.

AI 2026.04.28 · 13 min Advanced Graphical Models Deep Dive · 2

Belief Propagation은 왜 하나의 알고리즘인가

Factor graph의 bipartite 구조부터 Loopy BP와 Bethe 자유에너지의 등가성까지, 메시지 패싱이 어떻게 PGM 추론을 통합하는지 추적한다.

AI 2026.04.28 · 12 min Advanced Functional Analysis Deep Dive · 2

Hilbert 공간은 왜 AI 수학의 기반인가

내적공간의 공리부터 Fourier 급수의 L² 수렴까지, Hilbert 공간이 Attention·MSE·Kernel Trick을 하나의 구조로 설명하는 과정을 추적한다.

AI 2026.04.28 · 11 min Advanced Sde Deep Dive · 2

이토 공식은 왜 2차 항을 버리지 않는가

브라운 운동의 이차변분이 결정론과 다른 이유부터 Doléans-Dade 지수와 Black-Scholes PDE까지, 이토 공식의 통일된 논리를 추적한다.

AI 2026.04.28 · 12 min Advanced Information Theory Deep Dive · 2

KL에서 Wasserstein까지 — 분산(divergence)은 무엇을 측정하는가

KL의 비음수성 증명부터 Forward/Reverse KL의 기하학, JSD와 GAN의 이론적 연결, f-divergence 통일 프레임, Wasserstein의 등장까지 — 분포 간 거리의 설계 철학을 추적한다.

AI 2026.04.28 · 12 min Advanced Ml Fundamentals Deep Dive · 2

Logistic Regression의 통일 철학 — MLE가 모든 것을 설명한다

왜 sigmoid인가, 왜 cross-entropy인가, 왜 softmax인가. Bernoulli MLE 한 줄 유도부터 분리 문제·Firth 보정까지, 분류 알고리즘의 공통 뿌리를 추적한다.

AI 2026.04.28 · 13 min Advanced Linear Algebra Deep Dive · 2

행렬 분해는 왜 그렇게 설계됐는가

LU부터 Jordan Form까지, 각 행렬 분해가 어떤 구조적 필요에 응답하는지 — 존재 조건, 계산량, 수치 안정성의 연쇄를 추적한다.

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 2

미분가능성의 계층 — 편미분에서 역전파까지

편미분이 존재해도 전미분이 없을 수 있다는 사실부터, 야코비안-헤시안-연쇄법칙이 하나의 선형근사 철학으로 통일되는 구조까지, 딥러닝 최적화의 수학적 뼈대를 추적한다.

AI 2026.04.28 · 13 min Advanced Generalization Theory Deep Dive · 2

Norm-based 일반화 이론은 왜 진공에서 멈추는가

Bartlett의 spectral norm 곱부터 PAC-Bayes의 KL capacity, compression의 effective bits, Nagarajan-Kolter의 구조적 반례까지 — norm-based 이론이 어디서 한계에 부딪히는지 추적한다.

AI 2026.04.28 · 11 min Advanced Probability Theory Deep Dive · 2

확률변수의 분포는 왜 Ω를 필요로 하지 않는가

가측함수로서의 확률변수 정의부터 Radon-Nikodym에 의한 PMF/PDF 통일, 혼합 분포와 변수 변환까지 — 측도론이 ML 분포 모델링을 하나의 언어로 묶는 방식을 추적한다.

AI 2026.04.28 · 12 min Advanced Kernel Methods Deep Dive · 2

Kernel Method의 통일 원리: PD Kernel에서 계산까지

Moore-Aronszajn 정리로 RKHS가 존재함을 보이고, 재생성질·Representer 정리를 거쳐 SVM·KRR·GP가 같은 형태의 해를 갖는 이유까지, kernel method의 수학적 골격을 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 2

SGD는 왜 수렴하는가 — Robbins–Monro부터 Implicit Regularization까지

학습률 스케줄의 수학적 근거인 Robbins–Monro 조건부터 SGD noise가 flat minima를 선호하는 이유까지, 딥러닝 최적화의 이론적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Information Geometry Deep Dive · 2

Fisher 정보량은 왜 세 얼굴을 가지는가

통계다양체의 기하학적 토대부터 Fisher 정보의 세 정의 동치성, Chentsov 유일성 정리, 그리고 Cramér-Rao 하한의 기하학적 의미까지 — 정보기하학의 핵심 구조를 추적한다.

AI 2026.04.28 · 11 min Advanced Gnn Deep Dive · 2

GCN은 어디서 왔는가 — Spectral 이론에서 한 줄 식까지

Bruna의 spectral convolution 정의부터 ChebNet의 polynomial 근사, GCN 유도의 4단계 단순화, 그리고 spectral-spatial 동치까지 하나의 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Mathematical Statistics Deep Dive · 2

지수족은 왜 통계학의 중심에 있는가

충분통계량의 압축 원리부터 지수족의 로그분할함수, MLE 모멘트 매칭, Basu 정리까지 — 데이터를 파라미터로 연결하는 하나의 구조를 추적한다.

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 2

TRPO는 왜 KL을 step size로 쓰는가

단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.

AI 2026.04.28 · 15 min Advanced Neural Network Theory Deep Dive · 2

신경망은 왜 어떤 함수든 근사할 수 있는가

Cybenko의 sigmoid 보편성 증명부터 Hornik의 일반화, ReLU의 구성적 증명, 깊이 분리, Barron의 차원 무관 수렴율까지 — Universal Approximation Theorem의 수학적 계보를 추적한다.

AI 2026.04.28 · 12 min Advanced Bayesian Ml Deep Dive · 2

Variational Inference는 왜 ELBO를 최대화하는가

Intractable posterior를 tractable 분포로 근사하는 VI의 아이디어부터 ELBO의 세 분해, CAVI의 단조 수렴, reparameterization trick의 저분산 원리까지 하나의 최적화 철학으로 추적한다.

AI 2026.04.28 · 10 min Advanced Neural Network Theory Deep Dive · 3

역전파는 왜 단 한 번의 backward pass로 충분한가

Jacobian과 연쇄법칙의 행렬 버전부터 softmax + cross-entropy의 기적적인 gradient까지, 역전파 알고리즘의 수학적 구조를 추적한다.

AI 2026.04.28 · 14 min Advanced Functional Analysis Deep Dive · 3

함수해석학은 왜 딥러닝의 언어인가

유계 선형 연산자의 안정성 조건부터 Hahn-Banach의 분리 정리, 약수렴의 컴팩트성까지 — 신경망 설계에 숨어있는 함수해석학의 통일 원리를 추적한다.

AI 2026.04.28 · 12 min Advanced Convex Optimization Deep Dive · 3

볼록 최적화는 왜 ML의 기반인가

표준형의 전역 최솟값 보장부터 LP·QP·SDP 계층, 모델링 기법, DCP 자동 검증까지 — 볼록 최적화의 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Ml Fundamentals Deep Dive · 3

결정트리의 모든 분할 기준은 하나의 질문에서 나온다

엔트로피 기반 정보이득부터 Gini impurity, MSE 분할, Cost-Complexity Pruning, 축정렬 편향까지 — 결정트리의 설계 원리를 관통하는 단일 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Linear Algebra Deep Dive · 3

고유값은 행렬의 무엇을 말하는가

특성다항식의 불변량부터 Perron-Frobenius의 지배 고유값까지, 고유값이 행렬의 기하·동역학·수치적 성질을 어떻게 결정하는지 추적한다.

AI 2026.04.28 · 12 min Advanced Mathematical Statistics Deep Dive · 3

불편성보다 MSE — 추정 이론의 통합 원리

편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.

AI 2026.04.28 · 12 min Advanced Probability Theory Deep Dive · 3

ML 손실함수의 수학적 토대 — 기댓값에서 부등식까지

르베그 적분으로서의 기댓값이 이산·연속·혼합을 단일 정의로 통합하는 원리부터, Jensen·Cauchy-Schwarz가 ELBO와 Cramér-Rao를 만들어내는 과정까지 추적한다.

AI 2026.04.28 · 10 min Advanced Graphical Models Deep Dive · 3

HMM에서 Mamba까지 — 시계열 모델의 하나의 뼈대

Hidden Markov Model의 세 가지 문제부터 Kalman Filter, Baum-Welch EM, Viterbi까지, 모든 시계열 추론이 factor graph 위의 메시지 패싱으로 통일되는 과정을 추적한다.

AI 2026.04.28 · 12 min Advanced Information Geometry Deep Dive · 3

KL 발산은 하나가 아니다 — α-divergence와 정보기하의 통일 언어

KL 발산의 정보이론적 기원부터 Bregman 발산과의 동치, α-divergence 가족까지 — 현대 AI 손실 함수를 관통하는 하나의 기하학적 구조를 추적한다.

AI 2026.04.28 · 9 min Advanced Gnn Deep Dive · 3

GNN 아키텍처들은 같은 문법으로 쓰여 있다

MPNN 프레임워크가 GCN·GraphSAGE·GAT·GIN을 하나의 방정식으로 통일하는 과정부터 Aggregator 선택이 표현력을 결정하는 이유까지, 메시지 패싱의 설계 철학을 추적한다.

AI 2026.04.28 · 11 min Advanced Optimization Theory Deep Dive · 3

Momentum은 왜 빠른가 — 관성에서 진동까지

Polyak Heavy Ball의 √κ 가속 유도부터 NAG의 O(1/T²) 최적성, ODE 해석, 진동 조건, SGD 노이즈 누적까지 — Momentum optimizer의 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Information Theory Deep Dive · 3

상호정보량은 현대 표현학습의 언어다

MI의 기본 정의부터 DPI, Fano 부등식, MINE 추정, InfoNCE 기반 대조학습까지 — 표현학습의 설계 결정을 하나의 정보이론적 프레임으로 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 3

무한폭 신경망은 왜 커널 회귀로 환원되는가

Neural Tangent Kernel의 정의부터 NNGP, RKHS, Lazy vs Feature Learning까지 — 무한폭 극한이 딥러닝 훈련을 결정론적 선형 ODE로 환원하는 이유를 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 3

Normalization은 어떻게 깊은 네트워크를 훈련 가능하게 만드는가

BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.

AI 2026.04.28 · 10 min Advanced Statistical Learning Theory Deep Dive · 3

PAC Learning이란 무엇인가 — 학습 가능성의 수학적 정의

Valiant의 PAC learnability 정의부터 Fundamental Theorem까지, '얼마나 많은 데이터가 있으면 학습이 보장되는가'를 추적한다.

AI 2026.04.28 · 13 min Advanced Stochastic Processes Deep Dive · 3

Poisson 과정은 왜 세 가지 얼굴을 가지는가

카운트·간격·infinitesimal이라는 세 정의의 동치성부터 복합 Poisson의 특성함수, Little의 법칙을 통한 LLM inference 용량 설계까지, Poisson 과정의 통일된 구조를 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 3

PPO는 왜 TRPO를 대체했는가

2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.

AI 2026.04.28 · 13 min Advanced Cnn Deep Dive · 3

CNN의 수용장은 왜 기대보다 작은가

이론적 receptive field 공식부터 유효 수용장의 Gaussian 감쇠, dilated convolution의 지수 확장, semantic segmentation 설계까지 — CNN이 실제로 '보는' 영역을 추적한다.

AI 2026.04.28 · 12 min Advanced Sde Deep Dive · 3

SDE는 미분방정식이 아니다 — 적분, 해의 존재, 그리고 생성모델의 연결

SDE의 진정한 의미인 적분방정식에서 출발해 Picard 반복·Grönwall 부등식·OU 해석해·Itô 보정항·Yamada-Watanabe 정리까지, 생성모델이 작동하는 수학적 기반을 추적한다.

AI 2026.04.28 · 13 min Advanced Kernel Methods Deep Dive · 3

SVM은 왜 내적만으로 비선형이 되는가

Margin 최대화의 기하학적 출발점부터 Lagrangian dual, Kernel Trick, Soft-margin, SMO까지 — SVM 전체 설계를 관통하는 하나의 원리를 추적한다.

AI 2026.04.28 · 10 min Advanced Calculus Optimization Deep Dive · 3

손실 함수의 기하학 — 헤시안이 최적화를 지배하는 방식

다변수 테일러 전개의 2차 항부터 조건수와 수렴 속도의 관계까지, 경사하강법과 뉴턴 방법의 이론적 기반을 추적한다.

AI 2026.04.28 · 11 min Advanced Bayesian Ml Deep Dive · 3

VAE의 모든 설계 결정은 하나의 질문에서 나온다

ELBO 유도부터 β-VAE의 disentanglement, Normalizing Flow의 정확한 likelihood, Amortized Inference의 gap, IWAE의 단조 수렴까지 — VAE 계열 생성모델의 통일 원리를 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 4

Adam은 왜 수렴을 보장하지 못하는가

AdaGrad의 누적 분산에서 출발해 RMSProp의 이동평균, Adam의 편향 보정, 수렴 반례, 그리고 AMSGrad·AdamW·Lion까지 — adaptive optimizer 계보의 설계 결정을 추적한다.

AI 2026.04.28 · 13 min Advanced Ml Fundamentals Deep Dive · 4

Random Forest는 왜 트리를 많이 추가할수록 좋아지는가

Bootstrap의 63.2% 법칙부터 Bagging의 분산 감소 공식, RF의 ρ 감소 전략, 수렴 보장, Feature Importance의 함정까지 — 앙상블 이론의 통일된 공식을 추적한다.

AI 2026.04.28 · 14 min Advanced Functional Analysis Deep Dive · 4

컴팩트 연산자와 스펙트럼 — 무한차원 대각화의 철학

컴팩트 연산자의 정의부터 Fredholm 대안과 Tikhonov 정규화까지, 커널 메서드와 Gaussian Process를 떠받치는 스펙트럼 이론의 핵심을 추적한다.

AI 2026.04.28 · 13 min Advanced Stochastic Processes Deep Dive · 4

연속시간 마르코프 체인의 통일 원리 — Q-matrix에서 정상분포까지

CTMC의 infinitesimal generator Q-matrix부터 Kolmogorov 방정식, detailed balance, Birth-Death 과정까지 — 단 하나의 구조적 원리가 어떻게 모든 결과를 만들어내는지 추적한다.

AI 2026.04.28 · 10 min Advanced Graphical Models Deep Dive · 4

CRF는 왜 HMM보다 강한가

discriminative 모델링의 핵심 원리부터 Neural CRF의 end-to-end 학습까지, CRF가 구조화 예측의 표준이 된 이유를 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 4

Data Augmentation은 왜 효과적인가

ERM의 Dirac delta 근사부터 Contrastive Learning의 augmentation-defined semantics까지, 현대 정규화 기법의 통일된 수학적 기반을 추적한다.

AI 2026.04.28 · 11 min Advanced Generalization Theory Deep Dive · 4

Double Descent는 왜 일어나는가

고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.

AI 2026.04.28 · 13 min Advanced Convex Optimization Deep Dive · 4

Lagrangian 쌍대성은 왜 SVM을 가능하게 하는가

Lagrangian에서 쌍대 함수를 정의하고, 약쌍대성과 강쌍대성의 차이, KKT 조건의 필요충분 역할, 그림자 가격의 경제 해석까지 — 쌍대 이론의 통일된 구조를 추적한다.

AI 2026.04.28 · 12 min Advanced Information Geometry Deep Dive · 4

지수족은 왜 분포 공간의 아핀 부분다양체인가

로그밀도의 선형성에서 출발해 쌍대평탄(dually flat) 구조까지, 지수족이 정보기하의 중심이 되는 이유를 추적한다.

AI 2026.04.28 · 12 min Advanced Gnn Deep Dive · 4

GNN은 어디까지 그래프를 구분할 수 있는가

1-WL 색 정제부터 GIN의 최적성 증명, k-WL 위계, 위치 인코딩까지 — GNN 표현력의 이론적 천장과 그 우회 전략을 추적한다.

AI 2026.04.28 · 11 min Advanced Sde Deep Dive · 4

Langevin Dynamics는 왜 원하는 분포로 수렴하는가

Fokker-Planck 방정식의 유도부터 Log-Sobolev 부등식을 통한 지수 수렴 보장까지, 확률적 시간진화의 핵심 수학을 추적한다.

AI 2026.04.28 · 10 min Advanced Kernel Methods Deep Dive · 4

GP는 왜 '함수에 대한 Bayesian prior'인가

Gaussian Process의 정의부터 Sparse GP까지, 공분산 함수 선택이 prior 함수 공간을 결정하고 closed-form posterior가 불확실성을 정량화하는 원리를 추적한다.

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 4

경사하강법의 수렴은 왜 그 속도인가

볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.

AI 2026.04.28 · 11 min Advanced Probability Theory Deep Dive · 4

조건부 기댓값은 왜 ML의 모든 곳에 있는가

독립성의 엄밀한 정의부터 Bayes 정리, 조건부 기댓값의 Kolmogorov 정의, Tower·Pull-out 성질, 그리고 베이지안 추론의 측도론적 기초까지 — ML 핵심 알고리즘을 관통하는 하나의 수학적 구조를 추적한다.

AI 2026.04.28 · 12 min Advanced Neural Network Theory Deep Dive · 4

신경망 초기화는 왜 이렇게 복잡해졌는가

대칭성 깨기부터 Fixup까지, 분산 보존이라는 하나의 원칙이 Xavier, He, LSUV, Orthogonal 초기화를 어떻게 파생시켰는지 추적한다.

AI 2026.04.28 · 13 min Advanced Mathematical Statistics Deep Dive · 4

가설검정의 최적성은 어디서 오는가

신뢰구간의 pivot 구조부터 Neyman-Pearson 보조정리와 UMP 검정까지, 고전 통계 추론의 최적성 이론이 어떻게 ML의 설계 결정을 정당화하는지 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 4

SAC는 왜 동작하는가 — MaxEnt RL의 설계 철학

엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.

AI 2026.04.28 · 12 min Advanced Bayesian Ml Deep Dive · 4

MCMC는 왜 evidence 없이도 posterior를 얻는가

Metropolis-Hastings의 detailed balance부터 NUTS의 자동 튜닝, VI와의 정확도-속도 트레이드오프까지 — MCMC 추론 체계의 핵심 원리를 추적한다.

AI 2026.04.28 · 11 min Advanced Cnn Deep Dive · 4

Skip Connection은 왜 깊은 네트워크를 살렸는가

Residual block의 identity shortcut부터 DenseNet의 dense connection, Highway의 learnable gate, Stochastic Depth의 implicit ensemble까지, 깊이의 저주를 구조적으로 해결한 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Information Theory Deep Dive · 4

압축은 이해다 — Shannon이 증명한 정보의 한계

Kraft 부등식과 엔트로피의 관계부터 AEP의 Typical Set, Arithmetic Coding까지, 소스 코딩 정리가 LLM의 cross-entropy loss를 어떻게 설명하는지 추적한다.

AI 2026.04.28 · 12 min Advanced Linear Algebra Deep Dive · 4

SVD는 왜 모든 행렬 분해의 황금 표준인가

단위구가 타원체로 찌그러지는 기하학적 직관부터 Eckart-Young 저랭크 최적성, Randomized SVD의 확률론적 보장까지, SVD가 선형대수의 통합 언어가 되는 이유를 추적한다.

AI 2026.04.28 · 13 min Advanced Statistical Learning Theory Deep Dive · 4

VC 차원은 왜 신경망을 설명하지 못하는가

Shattering과 VC 차원의 정의부터 Sauer-Shelah Lemma를 거친 VC 경계 유도, 그리고 현대 딥러닝에서 이 경계가 왜 완전히 무너지는지까지 추적한다.

AI 2026.04.28 · 12 min Advanced Convex Optimization Deep Dive · 5

경사하강법은 얼마나 빠른가 — 수렴 이론의 전체 지도

L-smooth 볼록 함수의 O(1/k) 수렴부터 Nesterov 가속의 최적성, 뉴턴 방법의 이차 수렴, 분산 감소 기법의 선형 수렴까지 — 1차 최적화 이론의 핵심 정리를 하나의 흐름으로 추적한다.

AI 2026.04.28 · 12 min Advanced Mathematical Statistics Deep Dive · 5

점근 이론의 통일된 언어 — Delta부터 M-estimator까지

비선형 변환의 불확실성을 Taylor 전개로 추적하는 Delta method부터, MLE·OLS·ERM을 하나의 틀로 묶는 M-estimator 이론의 Sandwich 공식까지, 점근 통계학의 다섯 챕터를 관통하는 철학을 추적한다.

AI 2026.04.28 · 12 min Advanced Calculus Optimization Deep Dive · 5

역전파는 어떻게 수십억 파라미터의 기울기를 한 번에 계산하는가

계산 그래프와 자동미분의 수학적 구조부터 기울기 소실·폭발의 원인과 해결책, Autograd 엔진의 내부 동작까지 딥러닝 최적화의 핵심을 추적한다.

AI 2026.04.28 · 10 min Advanced Bayesian Ml Deep Dive · 5

BNN은 왜 그토록 어려운가 — 근사 추론의 스펙트럼

가중치를 확률변수로 취급하는 BNN의 수학적 출발점부터 Laplace, Bayes by Backprop, MC Dropout, SWAG까지, posterior 근사 전략의 트레이드오프를 추적한다.

AI 2026.04.28 · 12 min Advanced Ml Fundamentals Deep Dive · 5

AdaBoost에서 XGBoost까지 — Boosting은 하나의 수식이다

지수손실 최소화라는 단일 프레임으로 AdaBoost의 가중치 공식부터 XGBoost의 closed-form leaf 값, LightGBM의 histogram 최적화, margin theory의 과적합 저항성까지 추적한다.

AI 2026.04.28 · 12 min Advanced Information Theory Deep Dive · 5

Shannon 채널 코딩 정리 — 존재 증명이 60년을 이끌었다

채널 용량 C의 정의부터 Achievability·Converse 증명, Polar·LDPC가 그 한계에 도달하는 방식까지, Shannon 정리가 AI 이론의 기반이 되는 과정을 추적한다.

AI 2026.04.28 · 13 min Advanced Neural Network Theory Deep Dive · 5

CNN의 설계 철학 — 왜 Convolution인가

Translation equivariance의 수학적 근거부터 VC 이론의 파라미터 효율, pooling의 invariance, 그리고 LeNet에서 EfficientNet까지 아키텍처 진화의 공통 원리를 추적한다.

AI 2026.04.28 · 11 min Advanced Probability Theory Deep Dive · 5

수렴이란 무엇인가 — LLN, CLT, 그리고 Monte Carlo까지

확률수렴·거의확실수렴·분포수렴의 정확한 의미부터 대수의 법칙과 중심극한정리의 증명, Monte Carlo의 차원 무관 수렴률까지 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 5

Grokking은 왜 일어나는가 — 지연 일반화의 수학

훈련 손실이 0이 된 이후에도 수만 스텝 뒤에 테스트 정확도가 갑자기 100%로 뛰는 grokking 현상의 메커니즘부터, SGD implicit bias와 simplicity bias의 양날 구조까지 추적한다.

AI 2026.04.28 · 11 min Advanced Linear Algebra Deep Dive · 5

내적 공간의 다섯 기둥은 하나의 구조다

Cauchy-Schwarz 부등식의 기하적 의미부터 정사영, 최소제곱, Gram 행렬, QR 분해까지 — 내적 하나에서 파생되는 선형대수의 통합 구조를 추적한다.

AI 2026.04.28 · 13 min Advanced Kernel Methods Deep Dive · 5

커널 클러스터링은 왜 비구형 군집을 찾을 수 있는가

Kernel Ridge Regression의 closed-form 유도부터 Kernel PCA, Spectral Clustering, Kernel k-means까지, 커널 방법이 비선형 구조를 포착하는 통일된 원리를 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 5

모델은 왜 자신을 과신하는가 — Calibration의 수학

Over-confidence의 수학적 원인부터 Label Smoothing, Knowledge Distillation, Confidence Penalty, Temperature Scaling까지, 훈련 목적함수가 만들어내는 calibration 왜곡과 그 교정을 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 5

Loss Landscape는 어떻게 생겼는가

고차원 saddle point의 통계적 희귀성부터 NTK의 lazy regime까지, 딥러닝 loss landscape의 기하학을 하나의 프레임으로 추적한다.

AI 2026.04.28 · 11 min Advanced Stochastic Processes Deep Dive · 5

마팅게일은 왜 현대 AI 이론의 언어인가

공정한 게임의 수학적 추상인 마팅게일이 SGD 수렴, RL 정책 평가, bandit 탐색-활용 균형까지 어떻게 하나의 언어로 연결되는가.

AI 2026.04.28 · 13 min Intermediate Cnn Deep Dive · 5

CNN 아키텍처 설계의 통일된 논리: 무엇이 성능을 결정하는가

VGG의 depth 실험부터 NAS의 자동 탐색까지, 현대 CNN 아키텍처 설계를 관통하는 하나의 원리 — 표현력과 효율성의 균형 — 를 추적한다.

AI 2026.04.28 · 12 min Advanced Information Geometry Deep Dive · 5

Natural Gradient는 왜 좌표를 묻지 않는가

유클리드 gradient의 parameterization 의존성 문제부터 Fisher 계량 하의 steepest descent 유도, K-FAC·Shampoo의 실전 근사까지, Natural Gradient의 철학과 구조를 추적한다.

AI 2026.04.28 · 11 min Advanced Sde Deep Dive · 5

SDE 수치 해법의 통일 원리: 오차, 안정성, 다중 레벨

Euler-Maruyama의 강/약수렴 차이부터 Milstein의 이토 Taylor 보정, 암시적 기법의 A-안정성, Multilevel Monte Carlo의 복잡도 최적화까지, SDE 수치 해법의 설계 논리를 추적한다.

AI 2026.04.28 · 10 min Advanced Gnn Deep Dive · 5

GNN은 왜 깊이 쌓을수록 나빠지는가

GCN의 over-smoothing이 수학적 필연인 이유부터 APPNP의 closed-form 해결까지, 노드 표현이 붕괴하는 메커니즘을 스펙트럼 관점에서 추적한다.

AI 2026.04.28 · 11 min Advanced Statistical Learning Theory Deep Dive · 5

Rademacher 복잡도는 왜 VC보다 강한가

랜덤 라벨 상관성으로 함수족의 표현력을 측정하는 Rademacher 복잡도의 정의부터, Symmetrization-McDiarmid 기반 일반화 경계, Contraction Lemma를 통한 surrogate loss 정당화, 그리고 신경망 norm-based bound까지 추적한다.

AI 2026.04.28 · 11 min Advanced Functional Analysis Deep Dive · 5

RKHS는 왜 머신러닝의 이론적 토대인가

점평가의 연속성이라는 단순한 조건에서 커널 트릭, Representer 정리, Gaussian Process의 동치까지, RKHS가 커널 메서드 전체를 하나로 묶는 방식을 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 5

TD3는 왜 DDPG보다 안정적인가

Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.

AI 2026.04.28 · 11 min Advanced Graphical Models Deep Dive · 5

Exact Inference는 왜 그렇게 어려운가

Variable Elimination의 분배법칙부터 Treewidth의 NP-hardness, Junction Tree의 완성까지 — PGM exact inference의 복잡도 구조를 통합적으로 추적한다.

AI 2026.04.28 · 12 min Advanced Cnn Deep Dive · 6

CNN 응용의 통일 원리 — 손실 함수가 설계를 결정한다

분류의 softmax gradient부터 탐지의 Focal Loss, 분할의 Dice Loss, 자기지도학습의 contrastive loss까지, CNN 각 응용 영역의 손실 함수 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Intermediate Gnn Deep Dive · 6

GNN은 그래프에서 무엇을 학습하는가

노드 분류부터 그래프 생성까지, GNN 응용 태스크 전반을 관통하는 설계 원칙과 표현력의 한계를 추적한다.

AI 2026.04.28 · 13 min Advanced Graphical Models Deep Dive · 6

Variational Inference의 다섯 얼굴

Mean-field ELBO 유도부터 Bethe 자유에너지, EP의 moment matching, Gibbs sampling의 Markov blanket, Particle Filter의 중요도 가중치까지 — approximate inference의 통일된 틀을 추적한다.

AI 2026.04.28 · 14 min Advanced Mathematical Statistics Deep Dive · 6

베이즈 추론의 다섯 가지 얼굴

사전분포 선택부터 Bernstein-von Mises 수렴까지, 베이즈 추론의 설계 결정 다섯 가지를 하나의 철학으로 꿰뚫는다.

AI 2026.04.28 · 10 min Advanced Bayesian Ml Deep Dive · 6

Bayesian Optimization은 어떻게 적은 실험으로 최적을 찾는가

GP posterior로 불확실성을 정량화하고, acquisition function으로 탐색-활용 균형을 수학적으로 구현하는 BO 프레임워크의 설계 원리부터 고차원 확장과 수렴 보장까지.

AI 2026.04.28 · 12 min Advanced Stochastic Processes Deep Dive · 6

브라운 운동은 왜 이토 적분을 강제하는가

연속이지만 어디서도 미분불가능한 브라운 운동의 4가지 공리부터 이차변분 $(dB)^2 = dt$까지, SDE 이론의 필연성을 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 6

On-policy와 Off-policy — RL 알고리즘 선택의 실제 기준

Sample efficiency와 학습 안정성의 근본 긴장부터 분산 RL 아키텍처, Hybrid 알고리즘의 트레이드오프까지, 현대 RL 알고리즘 설계 철학을 추적한다.

AI 2026.04.28 · 12 min Advanced Calculus Optimization Deep Dive · 6

제약 최적화는 왜 AI의 핵심 언어인가

라그랑주 승수법부터 KKT 조건, 라그랑지안 쌍대성, 엔벨로프 정리, RLHF까지 — 제약 최적화의 수학적 구조가 AI 알고리즘 설계를 어떻게 결정하는지 추적한다.

AI 2026.04.28 · 11 min Advanced Regularization Theory Deep Dive · 6

훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴

Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.

AI 2026.04.28 · 12 min Advanced Information Geometry Deep Dive · 6

KL divergence 최소화는 왜 두 개의 다른 연산인가

e-projection과 m-projection의 비대칭성에서 출발해 EM 알고리즘, Variational Inference, MaxEnt까지, KL 기하학의 통일 원리를 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 6

복권 티켓은 처음부터 결정되어 있었는가

LTH의 IMP 프로토콜부터 Stable Ticket의 early rewinding, Liu 2019 반론, Strong LTH의 constructive proof까지 — 희소 서브네트워크가 일반화를 설명하는 방식을 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 6

LR 스케줄링의 통일 원리 — 왜 하나의 철학으로 수렴하는가

고정 LR의 O(1/T) 보장부터 warmup의 curvature 안정화, cosine+warm restart의 local minimum 탐색, One-Cycle의 super-convergence까지, 현대 LR 스케줄링 전체를 관통하는 설계 원리를 추적한다.

AI 2026.04.28 · 11 min Advanced Information Theory Deep Dive · 6

정보이론은 어떻게 AI의 모든 손실함수를 하나로 설명하는가

Cross-Entropy와 MLE의 동등성부터 ELBO 분해, MDL, Information Bottleneck, Diffusion ELBO, Fisher 기하까지 — AI 학습 목적함수의 공통 뿌리를 추적한다.

AI 2026.04.28 · 12 min Advanced Kernel Methods Deep Dive · 6

MMD는 어떻게 분포를 벡터로 만드는가

Mean embedding으로 확률분포를 RKHS 벡터에 올리는 순간부터, Two-sample test·MMD-GAN·HSIC까지 하나의 철학이 관통하는 방식을 추적한다.

AI 2026.04.28 · 9 min Advanced Probability Theory Deep Dive · 6

다변수 정규분포는 왜 ML의 기반인가

MVN의 PDF 유도부터 Affine 닫힘성, 조건부 분포의 Schur 보수, Gaussian Process, PCA까지 — 하나의 분포가 ML 전체를 어떻게 관통하는지 추적한다.

AI 2026.04.28 · 14 min Advanced Ml Fundamentals Deep Dive · 6

Naive Bayes에서 Generative Model까지 — 가정이 틀려도 잘 작동하는 이유

조건부 독립 가정이 현실에서 항상 깨지는데도 Naive Bayes가 강력한 baseline인 이유부터, Generative vs Discriminative의 점근 교차점까지, 분류의 깊은 구조를 추적한다.

AI 2026.04.28 · 12 min Advanced Convex Optimization Deep Dive · 6

Proximal Operator는 왜 경사하강법의 일반화인가

비매끄러운 손실함수를 다루는 proximal operator의 정의부터 ISTA/FISTA의 수렴률 차이, ADMM의 분산 학습 적용까지, 현대 최적화의 핵심 구조를 추적한다.

AI 2026.04.28 · 11 min Advanced Sde Deep Dive · 6

Diffusion 모델은 왜 Score를 배우는가

Anderson의 시간반전 공식부터 Tweedie, Score Matching, Denoising Score Matching, VP/VE-SDE, DDPM까지 — 생성모델의 수학적 뼈대를 하나의 흐름으로 추적한다.

AI 2026.04.28 · 12 min Advanced Neural Network Theory Deep Dive · 6

RNN은 왜 긴 기억을 갖지 못하는가

Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.

AI 2026.04.28 · 12 min Advanced Functional Analysis Deep Dive · 6

PINN은 왜 작동하는가 — 함수해석학이 만든 근거

약미분부터 Lax-Milgram 정리까지, PINN과 유한요소법의 이론적 뿌리를 추적한다. 비매끄러운 함수도 PDE의 해가 될 수 있다는 주장이 어디서 오는지, 그 수학적 근거를 추적한다.

AI 2026.04.28 · 11 min Advanced Statistical Learning Theory Deep Dive · 6

SGD는 왜 일반화하는가 — Stability 이론의 답

가설공간 복잡도 대신 알고리즘의 robustness를 측정하는 Uniform Stability 프레임워크에서, Ridge Regression의 O(1/λn)과 SGD의 O(ηT/n) 경계까지 추적한다.

AI 2026.04.28 · 13 min Advanced Linear Algebra Deep Dive · 6

텐서란 무엇인가 — 좌표를 넘어선 다중선형 대상

다차원 배열이라는 직관에서 벗어나 다중선형 사상으로 텐서를 재정의하고, Kronecker 곱·einsum·분해·신경망 가중치까지 하나의 언어로 통합한다.

AI 2026.04.28 · 12 min Advanced Calculus Optimization Deep Dive · 7

딥러닝 미분의 통일된 언어 — 야코비안에서 암묵적 미분까지

Softmax 야코비안의 행렬 구조부터 DEQ의 고정점 역전파, MAML의 2차 미분까지 — 딥러닝 최적화를 관통하는 하나의 언어를 추적한다.

AI 2026.04.28 · 12 min Advanced Sde Deep Dive · 7

SDE, ODE, Flow — 생성 모델을 하나의 언어로

Probability Flow ODE부터 Föllmer SDE, Flow Matching, Langevin MCMC까지 — 현대 생성 모델이 공유하는 하나의 수학적 언어를 추적한다.

AI 2026.04.28 · 11 min Advanced Kernel Methods Deep Dive · 7

Kernel Method는 어디서 Neural Network와 만나는가

MKL의 볼록 결합부터 Random Features의 Fourier 근사, Deep Kernel Learning의 공동 학습, NTK의 무한폭 동치까지 — kernel theory가 deep learning으로 수렴하는 경로를 추적한다.

AI 2026.04.28 · 10 min Advanced Bayesian Ml Deep Dive · 7

Bayesian Deep Learning은 불확실성을 어떻게 다루는가

Diffusion Model의 Hierarchical VAE 해석부터 PPL, Epistemic/Aleatoric 분해, OOD Calibration까지 — Bayesian 프레임워크가 현대 딥러닝을 관통하는 하나의 언어임을 추적한다.

AI 2026.04.28 · 10 min Advanced Information Geometry Deep Dive · 7

정보기하가 현대 AI를 어떻게 만드는가

Natural Policy Gradient의 Fisher 역행렬부터 확산 모델의 Fisher divergence까지, 정보기하의 단일 철학이 RL·생성 모델·샘플링에 어떻게 관통하는지 추적한다.

AI 2026.04.28 · 11 min Advanced Probability Theory Deep Dive · 7

ELBO에서 PAC까지 — 베이지안 ML의 통일 언어

ELBO 유도부터 Reparameterization, MLE 점근 정규성, Dropout의 베이지안 해석, Concentration Inequality까지 — 현대 확률적 ML을 관통하는 하나의 프레임워크를 추적한다.

AI 2026.04.28 · 12 min Advanced Optimization Theory Deep Dive · 7

딥러닝 최적화의 숨은 기하학 — Sharpness에서 Fisher까지

Loss landscape의 sharpness가 2/η 경계에 자가 안정화되는 Edge-of-Stability부터 Fisher metric 위의 Natural Gradient까지, 딥러닝 최적화의 공통 원리를 추적한다.

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 7

Offline RL부터 LLM 정렬까지 — 현대 RL의 공통 철학

OOD 문제를 pessimism으로 해결하는 CQL, BC 정규화를 쓰는 TD3+BC, 상상 롤아웃으로 샘플 효율을 높이는 Dreamer, 그리고 RLHF·DPO가 공유하는 하나의 원칙을 추적한다.

AI 2026.04.28 · 13 min Advanced Functional Analysis Deep Dive · 7

신경망이 함수공간에서 조밀한 이유 — Universal Approximation부터 PINN까지

Stone-Weierstrass 정리의 조밀성 조건부터 NTK의 무한폭 극한, Neural Operator의 함수 매핑, PINN의 Sobolev 수렴까지, 함수해석학이 현대 AI의 이론적 토대를 어떻게 구성하는지 추적한다.

AI 2026.04.28 · 14 min Advanced Ml Fundamentals Deep Dive · 7

비지도 학습의 세 가지 질문: 모양, 계층, 밀도

K-Means의 GMM 극한부터 DBSCAN의 밀도 연결, PCA·t-SNE·UMAP의 구조 보존 철학까지, 클러스터링과 차원축소의 근본 원리를 하나의 시각으로 추적한다.

AI 2026.04.28 · 12 min Advanced Graphical Models Deep Dive · 7

Graphical Model 학습은 왜 이렇게 어려운가

BN의 count-based MLE부터 MRF의 partition function 문제, EM의 ELBO 보장, Structure Learning의 NP-hardness, 그리고 GNN·Transformer까지 — classical PGM 학습의 통일된 수학적 계보를 추적한다.

AI 2026.04.28 · 13 min Advanced Cnn Deep Dive · 7

CNN의 설계 철학은 어디서 왔는가

귀납적 편향의 근거부터 적대적 취약성, 스펙트럼 편향, Vision Transformer와의 수렴까지 — CNN의 모든 설계 결정이 공유하는 하나의 원리를 추적한다.

AI 2026.04.28 · 11 min Advanced Stochastic Processes Deep Dive · 7

MCMC는 왜 복잡한 분포에서도 작동하는가

정규화 상수 없이도 샘플링이 가능한 이유부터 Gibbs·HMC의 설계 철학과 수렴 진단까지, MCMC 프레임워크의 핵심 원리를 추적한다.

AI 2026.04.28 · 14 min Advanced Convex Optimization Deep Dive · 7

볼록 최적화는 머신러닝을 어떻게 설명하는가

Logistic Regression의 수렴 보장부터 SVM 쌍대성, L1 희소성의 기하학, 비볼록 딥러닝의 역설, 그리고 온라인 학습의 Regret 경계까지 — 볼록 최적화라는 하나의 렌즈로 추적한다.

AI 2026.04.28 · 12 min Advanced Linear Algebra Deep Dive · 7

Transformer의 선형대수 — 회전, 정규화, 스펙트럼이 만나는 곳

Attention의 √d_k 스케일링부터 RoPE의 회전 행렬, Spectral Normalization의 Lipschitz 제약, Random Matrix Theory의 반원 법칙까지 — 현대 딥러닝 수학의 통합 구조를 추적한다.

AI 2026.04.28 · 13 min Advanced Gnn Deep Dive · 7

GNN은 어디까지 확장될 수 있는가

Graph Transformer의 구조적 encoding부터 E(3) equivariance, LLM과의 융합까지, GNN 고급 이론의 핵심 흐름을 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 7

Regularization의 4축 — 33개 기법을 하나의 틀로

SWA의 iterate 평균부터 SAM의 worst-case minimax, AdamW의 decoupled weight decay까지, 현대 regularization 기법들이 Prior·Ensemble·Landscape·Invariance 4축 위에서 어떻게 통합되는지 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 7

LLM의 스케일링은 예측 가능한가

Chinchilla compute-optimal ratio의 수학적 유도부터 Broken Scaling Law, Emergent Abilities 논쟁, ICL의 implicit gradient descent 이론까지, LLM 스케일링의 예측 가능성을 추적한다.

AI 2026.04.28 · 13 min Advanced Statistical Learning Theory Deep Dive · 7

모델 복잡도를 어떻게 선택해야 하는가

SRM의 VC 기반 penalty부터 AIC/BIC의 정보이론적 근거, Cross-Validation의 경험적 추정, 그리고 VC·Rademacher·Stability 세 관점의 대비까지, 일반화 이론의 통일 원리를 추적한다.

AI 2026.04.28 · 14 min Advanced Mathematical Statistics Deep Dive · 7

통계학과 머신러닝은 왜 같은 말을 다른 이름으로 부르는가

ERM과 MLE의 수학적 동치부터 정규화의 MAP 해석, GLM의 통합 구조, 통계학습이론의 일반화 보장, 그리고 베이지안 신경망의 불확실성 정량화까지 — 두 분야를 관통하는 하나의 철학을 추적한다.

AI 2026.04.28 · 14 min Advanced Neural Network Theory Deep Dive · 7

Transformer는 왜 작동하는가 — 설계 결정들의 공통 뿌리

√d_k 스케일링부터 Residual Connection까지, Transformer의 핵심 설계 결정들이 하나의 원칙 — '신호가 사라지지 않게 하라' — 에서 비롯됨을 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 1

Attention은 왜 그렇게 설계됐는가

Scaled dot-product attention의 수학적 필연성부터 softmax 포화, 커널 해석, 멀티헤드의 표현력, 해석 가능성 논쟁까지 — Transformer의 핵심 설계 결정을 추적한다.

AI 2026.04.27 · 12 min Advanced Generative Model Deep Dive · 1

생성 모델의 통합 프레임워크 — 무엇을 배우는가

Discriminative와 Generative의 수학적 차이부터 KL 최소화 통합 관점, IS·FID·NLL 평가 지표까지, 생성 모델을 하나의 언어로 이해한다.

AI 2026.04.27 · 12 min Advanced Generative Model Deep Dive · 2

Autoregressive 모델은 왜 모든 modality를 생성할 수 있는가

확률의 chain rule이 항등식인 이유부터 PixelCNN의 masked convolution, WaveNet의 dilated causal conv, GPT의 scaling law까지, AR 생성 모델의 통일 철학을 추적한다.

AI 2026.04.27 · 11 min Advanced Transformer Deep Dive · 2

Transformer Block은 왜 이 네 요소의 조합인가

Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 3

Positional Encoding은 어떻게 진화했나

순서를 모르는 Self-Attention의 한계부터 Sinusoidal, Learned, Relative PE를 거쳐 RoPE와 ALiBi까지, 위치 정보 주입의 설계 진화를 추적한다.

AI 2026.04.27 · 12 min Advanced Generative Model Deep Dive · 3

VAE는 왜 latent를 포기하는가

ELBO의 reconstruction-regularization 분해부터 posterior collapse의 근본 원인, reparameterization trick의 수학, β-VAE의 information bottleneck 해석, VQ-VAE의 discrete 전환까지 — VAE 설계 결정의 연쇄를 추적한다.

AI 2026.04.27 · 11 min Advanced Generative Model Deep Dive · 4

Normalizing Flow의 모든 설계 결정은 하나의 제약에서 나온다

Change of variables 공식의 두 조건 — invertibility와 tractable Jacobian — 이 어떻게 Coupling, Autoregressive, Continuous Flow의 architecture를 각각 다르게 강제하는지 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 4

Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정

Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 5

Attention의 O(T²) 벽을 어떻게 부수는가

Self-attention의 이차 복잡도가 만드는 메모리·시간 병목의 근원부터, Linear·Sparse·Flash·MQA/GQA 네 가지 해법의 수학적 원리와 트레이드오프까지 추적한다.

AI 2026.04.27 · 10 min Advanced Generative Model Deep Dive · 5

GAN은 왜 그토록 불안정한가

Minimax 정식화부터 JSD 환원, Mode Collapse의 수학적 원인, Wasserstein 거리, Spectral Normalization까지 — GAN 훈련 불안정성의 뿌리를 추적한다.

AI 2026.04.27 · 11 min Advanced Generative Model Deep Dive · 6

DDPM의 수학은 하나의 질문으로 수렴한다

Forward process의 closed-form 유도부터 Score-SDE의 통합 프레임워크, Classifier-Free Guidance의 암묵적 분류기까지 — 확산 모델 설계의 단일 원리를 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 6

BERT, GPT, T5, ViT, MoE — 다섯 아키텍처는 하나의 질문에 답한다

Transformer 의 다섯 변형이 '맥락을 어떻게 쓸 것인가'라는 하나의 질문에 각자 다르게 답하는 방식부터, MoE 가 파라미터와 계산을 분리하는 원리까지, 아키텍처 설계 철학의 흐름을 추적한다.

AI 2026.04.27 · 15 min Advanced Transformer Deep Dive · 7

LLM은 왜 클수록 똑똑한가 — Scaling Laws의 세계

Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.

AI 2026.04.27 · 12 min Advanced Generative Model Deep Dive · 7

생성 모델의 다섯 계보는 왜 하나의 질문에서 갈라지는가

AR · VAE · Flow · GAN · Diffusion 의 likelihood, 샘플링 속도, 품질 트레이드오프부터 Consistency Model, EBM, 프런티어 응용까지, 생성 모델의 설계 철학을 추적한다.