AI 2026.05.03 · 13 min
Advanced Nlp Foundations Deep Dive · 2
단어의 의미는 어떻게 숫자가 되는가
Distributional hypothesis의 철학적 기반부터 PMI·LSA·SENNA까지, 현대 NLP 임베딩의 공통 토대를 추적한다.
총 3개의 글
Distributional hypothesis의 철학적 기반부터 PMI·LSA·SENNA까지, 현대 NLP 임베딩의 공통 토대를 추적한다.
Skip-gram과 CBOW의 설계 차이부터 Hierarchical Softmax·Negative Sampling의 수학적 유도, 그리고 SGNS의 optimal solution이 shifted PMI matrix임을 증명한 Levy & Goldberg 2014까지.
LSA의 global matrix와 Word2Vec의 vector arithmetic이 왜 따로는 불완전한지, GloVe의 ratio formulation이 두 강점을 어떻게 하나의 objective로 결합하는지 추적한다.