tag

#transformer

총 28개의 글

AI 2026.05.05 · 14 min Advanced Mechanistic Interpretability Deep Dive · 1

Mechanistic Interpretability는 무엇을 증명하는가

해석 가능성 4대 패러다임의 차이부터 activation patching의 인과 추론, 회로 발견 알고리즘까지 — 신경망을 역공학하려는 과학적 프로그램의 핵심을 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 2

Transformer의 내부는 어떻게 작동하는가 — Mechanistic Interpretability 의 수학적 기초

Residual stream의 선형 구조부터 QK·OV 분해, Head Composition, Linear Representation Hypothesis까지 — Transformer 내부 메커니즘을 추적한다.

AI 2026.05.05 · 11 min Advanced Retrieval Rag Deep Dive · 5

RAG는 어떻게 진화했는가 — Vanilla부터 CRAG까지

검색과 생성의 단순 연결에서 시작해 adaptive retrieval과 confidence-based routing까지, RAG 아키텍처의 설계 결정들을 추적한다.

AI 2026.05.05 · 13 min Advanced Mechanistic Interpretability Deep Dive · 7

신경망을 해부할 수 있는가 — Mechanistic Interpretability의 세 장면

IOI Circuit의 완전한 역공학부터 Grokking의 학습 동역학, Transcoder·Crosscoder의 자동화된 회로 발견까지, '신경망은 해석 가능하다'는 명제를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 1

Pretrained LM은 어떻게 '언어를 이해'하게 되었나

Context-independent한 고정 벡터의 한계부터 Bi-LSTM, 3단계 fine-tuning recipe, Transformer의 병렬 self-attention까지 — 사전학습 언어모델 진화의 핵심 흐름을 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 2

BERT는 어떻게 언어를 '이해'하는가

WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.

AI 2026.05.03 · 9 min Advanced Distributed Training Deep Dive · 3

Tensor Parallelism은 왜 AllReduce가 정확히 2번인가

단일 GPU 메모리 한계에서 출발해 Column-GELU-Row 구조의 2-AllReduce 최적성과 NVLink vs InfiniBand 효율 차이까지, Megatron-LM의 설계 결정을 추적한다.

AI 2026.05.03 · 11 min Advanced Object Detection Deep Dive · 5

DETR은 왜 NMS 없이 작동하는가

End-to-end set prediction 아이디어부터 Hungarian matching의 수학적 근거, slow convergence의 원인과 DINO·RT-DETR의 해결까지, DETR 계열 detection의 설계 철학을 추적한다.

AI 2026.05.03 · 11 min Advanced Distributed Training Deep Dive · 6

Transformer 학습에서 Activation Memory는 왜 폭발하는가

Forward pass 활성화 메모리의 수학적 분해부터 Gradient Checkpointing, Selective Recomputation, Sequence Parallelism까지 — 대규모 모델 학습의 메모리 병목을 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Pretraining Deep Dive · 6

LLM 아키텍처 설계의 다섯 가지 선택

깊이-너비 비율부터 KV 캐시, MoE 라우팅, 위치 인코딩, 활성화 함수까지 — LLM 아키텍처의 모든 설계 결정이 하나의 원칙으로 수렴하는 이유를 추적한다.

AI 2026.05.03 · 13 min Advanced Llm Efficiency Deep Dive · 6

Flash Attention은 어떻게 T² 메모리 장벽을 넘었나

표준 Attention의 O(T²) HBM 병목의 수학적 근원부터 Flash Attention 1/2/3의 핵심 아이디어, 그리고 PagedAttention·Ring·Linear Attention까지, 효율적 Attention 설계의 전체 계보를 추적한다.

AI 2026.05.03 · 12 min Advanced Pretrained Lm Deep Dive · 6

In-Context Learning은 어떻게 작동하는가

Weight 업데이트 없이 몇 개의 demo만으로 task를 수행하는 ICL의 현상부터, Attention이 Gradient Descent를 구현한다는 수학적 증명, 그리고 Task Vector가 task 정보를 encoding하는 방식까지 추적한다.

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 6

Vision-Language Model은 어떻게 이미지를 '이해'하는가

CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.

AI 2026.05.03 · 11 min Advanced Rnn Lstm Deep Dive · 6

Attention은 어떻게 Seq2Seq의 병목을 뚫었는가

Sutskever 2014의 고정 벡터 압축 문제부터 Bahdanau·Luong 어텐션의 설계 결정, 커버리지 메커니즘과 Pointer Network까지, 시퀀스 변환 아키텍처의 진화를 추적한다.

AI 2026.05.03 · 12 min Advanced Rnn Lstm Deep Dive · 7

RNN이 Transformer에 밀린 이유, 그리고 Mamba가 돌아온 이유

GPU 병렬성 한계부터 선택적 상태 공간 모델까지, 시퀀스 아키텍처 30년의 진화를 관통하는 하나의 질문을 추적한다.

AI 2026.05.03 · 15 min Advanced Audio Speech Deep Dive · 7

오디오 LM의 공통 설계 언어 — 토큰, 계층, 스트림

AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 3

Normalization은 어떻게 깊은 네트워크를 훈련 가능하게 만드는가

BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.

AI 2026.04.28 · 12 min Advanced Graphical Models Deep Dive · 7

Graphical Model 학습은 왜 이렇게 어려운가

BN의 count-based MLE부터 MRF의 partition function 문제, EM의 ELBO 보장, Structure Learning의 NP-hardness, 그리고 GNN·Transformer까지 — classical PGM 학습의 통일된 수학적 계보를 추적한다.

AI 2026.04.28 · 12 min Advanced Linear Algebra Deep Dive · 7

Transformer의 선형대수 — 회전, 정규화, 스펙트럼이 만나는 곳

Attention의 √d_k 스케일링부터 RoPE의 회전 행렬, Spectral Normalization의 Lipschitz 제약, Random Matrix Theory의 반원 법칙까지 — 현대 딥러닝 수학의 통합 구조를 추적한다.

AI 2026.04.28 · 14 min Advanced Neural Network Theory Deep Dive · 7

Transformer는 왜 작동하는가 — 설계 결정들의 공통 뿌리

√d_k 스케일링부터 Residual Connection까지, Transformer의 핵심 설계 결정들이 하나의 원칙 — '신호가 사라지지 않게 하라' — 에서 비롯됨을 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 1

Attention은 왜 그렇게 설계됐는가

Scaled dot-product attention의 수학적 필연성부터 softmax 포화, 커널 해석, 멀티헤드의 표현력, 해석 가능성 논쟁까지 — Transformer의 핵심 설계 결정을 추적한다.

AI 2026.04.27 · 12 min Advanced Generative Model Deep Dive · 2

Autoregressive 모델은 왜 모든 modality를 생성할 수 있는가

확률의 chain rule이 항등식인 이유부터 PixelCNN의 masked convolution, WaveNet의 dilated causal conv, GPT의 scaling law까지, AR 생성 모델의 통일 철학을 추적한다.

AI 2026.04.27 · 11 min Advanced Transformer Deep Dive · 2

Transformer Block은 왜 이 네 요소의 조합인가

Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 3

Positional Encoding은 어떻게 진화했나

순서를 모르는 Self-Attention의 한계부터 Sinusoidal, Learned, Relative PE를 거쳐 RoPE와 ALiBi까지, 위치 정보 주입의 설계 진화를 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 4

Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정

Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 5

Attention의 O(T²) 벽을 어떻게 부수는가

Self-attention의 이차 복잡도가 만드는 메모리·시간 병목의 근원부터, Linear·Sparse·Flash·MQA/GQA 네 가지 해법의 수학적 원리와 트레이드오프까지 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 6

BERT, GPT, T5, ViT, MoE — 다섯 아키텍처는 하나의 질문에 답한다

Transformer 의 다섯 변형이 '맥락을 어떻게 쓸 것인가'라는 하나의 질문에 각자 다르게 답하는 방식부터, MoE 가 파라미터와 계산을 분리하는 원리까지, 아키텍처 설계 철학의 흐름을 추적한다.

AI 2026.04.27 · 15 min Advanced Transformer Deep Dive · 7

LLM은 왜 클수록 똑똑한가 — Scaling Laws의 세계

Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.