#clip · IQ Lab

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 6

CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.