AI 2026.05.03 · 12 min
Advanced Nlp Foundations Deep Dive · 1
언어 모델이란 무엇인가 — 확률의 연쇄에서 ChatGPT까지
Chain rule of probability로 언어 모델을 엄밀하게 정의하고, N-gram의 sparse data 문제부터 Kneser-Ney smoothing의 continuation count 통찰까지, NLP 기초 이론의 흐름을 추적한다.
총 6개의 글
Chain rule of probability로 언어 모델을 엄밀하게 정의하고, N-gram의 sparse data 문제부터 Kneser-Ney smoothing의 continuation count 통찰까지, NLP 기초 이론의 흐름을 추적한다.
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.
Distributional hypothesis의 철학적 기반부터 PMI·LSA·SENNA까지, 현대 NLP 임베딩의 공통 토대를 추적한다.
OOV 문제의 본질부터 BPE·WordPiece·Unigram·SentencePiece의 설계 철학까지, 현대 LLM이 Subword를 표준으로 삼은 이유를 추적한다.
Word2Vec의 OOV 한계를 char n-gram 합산으로 돌파한 FastText부터, char-CNN과 biLSTM으로 같은 단어에 다른 벡터를 부여한 ELMo까지, 정적 임베딩이 문맥 임베딩으로 진화한 경로를 추적한다.
Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.