AI 2026.05.03 · 11 min
Advanced Vision Transformer Deep Dive · 1
ViT는 왜 이미지를 patch로 쪼개는가
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
총 3개의 글
Dosovitskiy 2021의 수식 파이프라인부터 inductive bias 부족이 초래하는 데이터 요구량까지, Vision Transformer의 설계 결정을 추적한다.
inductive bias 부재라는 ViT의 근본 제약부터, distillation·window attention·spatial reduction·hybrid·multi-scale까지 다섯 가지 해법의 설계 철학을 추적한다.
귀납적 편향의 근거부터 적대적 취약성, 스펙트럼 편향, Vision Transformer와의 수렴까지 — CNN의 모든 설계 결정이 공유하는 하나의 원리를 추적한다.