tag

#multimodal

총 2개의 글

AI 2026.05.03 · 15 min Advanced Vision Transformer Deep Dive · 6

CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.

AI 2026.05.03 · 15 min Advanced Audio Speech Deep Dive · 7

AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.