AI 2026.05.03 · 15 min
Advanced Vision Transformer Deep Dive · 6
Vision-Language Model은 어떻게 이미지를 '이해'하는가
CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.
총 1개의 글
CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.