series · audio-speech-deep-dive

📚 Audio Speech Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.05.03 · 18 min Advanced Audio Speech Deep Dive · 1

디지털 오디오의 수학적 기반 — 샘플링부터 MFCC까지

Nyquist-Shannon 정리부터 STFT, Heisenberg 불확정성, mel-scale, MFCC까지 — 모든 현대 오디오 AI가 공유하는 하나의 수학적 철학을 추적한다.

AI 2026.05.03 · 10 min Advanced Audio Speech Deep Dive · 2

음성 인식의 세 시대 — LPC에서 WFST까지

Source-Filter Model의 물리적 직관부터 LPC, HMM-GMM, WFST 기반 ASR까지, 음성 처리 고전 파이프라인의 설계 철학과 각 모듈이 deep learning에 무엇을 남겼는지 추적한다.

AI 2026.05.03 · 14 min Advanced Audio Speech Deep Dive · 3

CTC에서 RNN-T까지 — 음성 인식의 alignment 문제는 어떻게 풀렸나

GMM-HMM의 forced alignment부터 CTC의 marginalization, LAS의 autoregressive decoder, RNN-T의 스트리밍까지 — end-to-end ASR의 설계 철학을 추적한다.

AI 2026.05.03 · 13 min Advanced Audio Speech Deep Dive · 4

ASR 아키텍처는 어떻게 진화했나

Conformer의 conv+attention 결합부터 Wav2Vec 2.0의 self-supervised contrastive 학습, HuBERT의 iterative refinement, Whisper의 약지도 대규모 학습까지 — 현대 ASR 설계 철학의 변화를 추적한다.

AI 2026.05.03 · 16 min Advanced Audio Speech Deep Dive · 5

TTS는 어떻게 사람 목소리를 학습하는가

Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.

AI 2026.05.03 · 13 min Advanced Audio Speech Deep Dive · 6

Neural Audio Codec은 왜 VQ를 버리지 못하는가

Vector Quantization의 기본 원리부터 RVQ·Encodec의 bitrate scalability, semantic/acoustic token의 계층적 분리까지, 현대 audio codec 설계를 관통하는 공통 철학을 추적한다.

AI 2026.05.03 · 15 min Advanced Audio Speech Deep Dive · 7

오디오 LM의 공통 설계 언어 — 토큰, 계층, 스트림

AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.