AI 2026.05.03 · 12 min
Intermediate Nlp Foundations Deep Dive · 5
Tokenizer는 왜 Subword를 선택했는가
OOV 문제의 본질부터 BPE·WordPiece·Unigram·SentencePiece의 설계 철학까지, 현대 LLM이 Subword를 표준으로 삼은 이유를 추적한다.
총 2개의 글
OOV 문제의 본질부터 BPE·WordPiece·Unigram·SentencePiece의 설계 철학까지, 현대 LLM이 Subword를 표준으로 삼은 이유를 추적한다.
Word2Vec의 OOV 한계를 char n-gram 합산으로 돌파한 FastText부터, char-CNN과 biLSTM으로 같은 단어에 다른 벡터를 부여한 ELMo까지, 정적 임베딩이 문맥 임베딩으로 진화한 경로를 추적한다.