ViT는 왜 이미지를 patch로 쪼개는가
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
총 7개의 글
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
inductive bias 부재라는 ViT의 근본 제약부터, distillation·window attention·spatial reduction·hybrid·multi-scale까지 다섯 가지 해법의 설계 철학을 추적한다.
Generative, Contrastive, Self-Distillation — label 없이 representation을 학습하는 세 패러다임의 손실함수, 수렴점, 그리고 트레이드오프를 하나의 프레임으로 추적한다.
Teacher-student 증류와 multi-crop 일관성 손실이 어떻게 semantic segmentation과 k-NN 분류 능력을 만들어내는지, DINO부터 DINOv2까지 붕괴 방지 메커니즘과 스케일링 법칙을 추적한다.
BEiT의 discrete token부터 MAE의 75% masking, SimMIM의 단순화, MaskFeat·MVP의 target 추상도까지 — MIM 계열의 설계 결정이 공유하는 하나의 원칙을 추적한다.
토큰 기반 이미지 생성부터 Scaling Law, 3D 장면 표현, 영상 이해, 세계 모델까지 — Vision Transformer 설계 철학의 공통 실을 추적한다.
귀납적 편향의 근거부터 적대적 취약성, 스펙트럼 편향, Vision Transformer와의 수렴까지 — CNN의 모든 설계 결정이 공유하는 하나의 원리를 추적한다.