AI 2026.05.03 · 15 min
Advanced Audio Speech Deep Dive · 7
오디오 LM의 공통 설계 언어 — 토큰, 계층, 스트림
AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.
총 1개의 글
AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.