AI 2026.05.03 · 16 min
Advanced Audio Speech Deep Dive · 5
TTS는 어떻게 사람 목소리를 학습하는가
Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.
총 1개의 글
Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.