디지털 오디오의 수학적 기반 — 샘플링부터 MFCC까지
Nyquist-Shannon 정리부터 STFT, Heisenberg 불확정성, mel-scale, MFCC까지 — 모든 현대 오디오 AI가 공유하는 하나의 수학적 철학을 추적한다.
총 7편 · 순서대로 읽기를 권장
Nyquist-Shannon 정리부터 STFT, Heisenberg 불확정성, mel-scale, MFCC까지 — 모든 현대 오디오 AI가 공유하는 하나의 수학적 철학을 추적한다.
Source-Filter Model의 물리적 직관부터 LPC, HMM-GMM, WFST 기반 ASR까지, 음성 처리 고전 파이프라인의 설계 철학과 각 모듈이 deep learning에 무엇을 남겼는지 추적한다.
GMM-HMM의 forced alignment부터 CTC의 marginalization, LAS의 autoregressive decoder, RNN-T의 스트리밍까지 — end-to-end ASR의 설계 철학을 추적한다.
Conformer의 conv+attention 결합부터 Wav2Vec 2.0의 self-supervised contrastive 학습, HuBERT의 iterative refinement, Whisper의 약지도 대규모 학습까지 — 현대 ASR 설계 철학의 변화를 추적한다.
Tacotron의 end-to-end seq2seq부터 WaveNet의 sample-level 생성, FastSpeech의 parallel inference, HiFi-GAN의 다중 판별기, VITS의 통합 프레임워크까지 — 현대 TTS 설계 철학의 진화를 추적한다.
Vector Quantization의 기본 원리부터 RVQ·Encodec의 bitrate scalability, semantic/acoustic token의 계층적 분리까지, 현대 audio codec 설계를 관통하는 공통 철학을 추적한다.
AudioLM의 계층적 분해부터 VALL-E의 in-context 클로닝, MusicGen의 delay pattern, Moshi의 풀-듀플렉스 대화까지, 오디오 생성 모델의 공통 설계 철학을 추적한다.