ViT는 왜 이미지를 patch로 쪼개는가
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
총 7편 · 순서대로 읽기를 권장
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
inductive bias 부재라는 ViT의 근본 제약부터, distillation·window attention·spatial reduction·hybrid·multi-scale까지 다섯 가지 해법의 설계 철학을 추적한다.
Generative, Contrastive, Self-Distillation — label 없이 representation을 학습하는 세 패러다임의 손실함수, 수렴점, 그리고 트레이드오프를 하나의 프레임으로 추적한다.
Teacher-student 증류와 multi-crop 일관성 손실이 어떻게 semantic segmentation과 k-NN 분류 능력을 만들어내는지, DINO부터 DINOv2까지 붕괴 방지 메커니즘과 스케일링 법칙을 추적한다.
BEiT의 discrete token부터 MAE의 75% masking, SimMIM의 단순화, MaskFeat·MVP의 target 추상도까지 — MIM 계열의 설계 결정이 공유하는 하나의 원칙을 추적한다.
CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.
토큰 기반 이미지 생성부터 Scaling Law, 3D 장면 표현, 영상 이해, 세계 모델까지 — Vision Transformer 설계 철학의 공통 실을 추적한다.