Embedding 평가는 왜 두 가지가 필요한가

Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.

Word2Vec과 GloVe가 WordSim-353에서 높은 Spearman 상관을 보인다고 해서, NER F1도 높을 것이라 기대할 수 있을까? Schnabel(2015)의 분석은 그 기대가 틀렸음을 보여준다. 그렇다면 embedding을 어떻게 평가해야 하는가?

Intrinsic 평가의 약속과 한계

Intrinsic evaluation은 embedding 자체의 성질을 측정한다. WordSim-353의 353개 단어 쌍에 대해 모델의 cosine 유사도와 인간 평점 사이의 Spearman 상관을 계산하거나, Google Analogy의 19,544개 문항에서 king - man + woman = ? 같은 벡터 산술의 정확도를 측정한다.

이 평가가 유용한 이유는 명확하다. 빠르고, 표준화되어 있으며, 재현 가능하다. 하이퍼파라미터를 바꿀 때마다 전체 NER 파이프라인을 재학습할 필요 없이, window size나 차원 수의 효과를 즉시 확인할 수 있다.

그러나 한계도 명확하다. WordSim-353에서의 높은 상관이 NER F1의 높은 수치를 보장하지 않는다. 감성 분류처럼 단어 의미가 직접 신호인 태스크에서는 두 지표가 어느 정도 상관하지만, NER처럼 대문자 표기와 형태소가 중요한 태스크에서는 단어 유사도 벤치마크가 예측력을 잃는다. 단일 벤치마크 수치만으로 embedding을 선택하는 것이 왜 위험한지가 여기서 드러난다.

어떤 태스크에 어떤 embedding이 맞는가

Extrinsic evaluation은 실제 태스크의 성능으로 embedding을 판단한다. 같은 corpus로 학습한 Word2Vec, GloVe, FastText, ELMo, BERT를 CoNLL-2003 NER, Penn Treebank POS, IMDB 감성 분류에 각각 투입해 F1과 정확도를 비교하면 다음과 같은 경향이 나타난다.

Embedding	NER (CoNLL-03 F1)	POS (PTB Acc)	IMDB Sentiment
Random init	80.5	96.5	85.0
GloVe	87.5	97.3	88.0
FastText	88.2	97.4	88.5
ELMo	92.0	97.7	92.0
BERT-base	92.5	97.9	94.5

Pretrained > random은 항상 성립한다. 그러나 태스크마다 최적 embedding이 다르다는 점이 중요하다. NER은 형태소와 대문자 표기가 결정적이라 char n-gram을 다루는 FastText가 GloVe를 앞선다. 감성 분류는 단어의 분포적 의미가 직접 신호라 GloVe도 경쟁력이 있다. POS는 이미 97% 수준에서 포화 상태라 embedding 선택의 영향이 작다.

✎ Frozen vs Fine-tuning

학습 데이터가 1천 건 미만이면 embedding을 고정(frozen)하는 편이 안전하다. 과적합 방지 효과가 크기 때문이다. 10만 건 이상이면 embedding까지 낮은 학습률로 함께 미세조정하면 추가 이득을 얻을 수 있다. Catastrophic forgetting을 막으려면 embedding 레이어에 별도의 낮은 학습률을 적용한다.

언어를 넘어선 전이 — 다언어 embedding

영어로 학습한 NER 모델이 한국어 문장에 직접 적용될 수 있을까? mBERT(104개 언어 Wikipedia MLM)가 이를 부분적으로 가능하게 만들었다. 명시적 교차언어 신호 없이 multilingual MLM만으로 emergent cross-lingual representation이 형성된다.

그 메커니즘은 세 가지로 설명된다. 첫째, 공유 서브워드 어휘(110k WordPiece)가 라틴 문자 기반 언어 사이에서 토큰 수준의 공유를 만들어낸다. 둘째, Wikipedia의 다언어 문서들이 같은 주제를 다루므로 분포적 학습이 교차언어 힌트를 포착한다. 셋째, 하나의 Transformer가 모든 언어를 처리해야 하므로 공유 표현 공간으로의 수렴이 강제된다.

영어로 fine-tune한 mBERT를 한국어 NER에 zero-shot으로 적용하면 F1 70 수준이 나온다(무작위 기준선 30). XLM-R은 CommonCrawl 2.5TB의 대규모 데이터로 학습해 한국어 zero-shot F1 75에 도달한다.

⚠ Curse of Multilinguality

언어를 많이 추가할수록 언어당 품질이 낮아진다. 고정된 모델 용량을 더 많은 언어가 나눠 쓰기 때문이다. XLM-R은 더 큰 모델과 더 많은 데이터로 이를 부분 완화한다. 근본적 해결책은 언어별 adapter(Pfeiffer 2020)로, 베이스 모델을 공유하면서 언어 특화 표현을 별도로 학습한다.

Static Embedding이 답할 수 없는 질문들

Word2Vec, GloVe, FastText는 세 가지 근본적 한계를 공유한다.

첫째, 다의어(polysemy)다. bank는 강둑과 은행이라는 두 의미를 가지지만, static embedding은 코퍼스 빈도로 가중된 단 하나의 벡터를 할당한다. *“deposit money at the bank”*에서 bank의 벡터는 여전히 강둑 의미의 노이즈를 포함한다.

둘째, 문맥 무감각(context-blindness)이다. *“I am running”*과 *“running for office”*의 running은 의미가 다르지만 항상 같은 벡터를 받는다.

셋째, 문장 표현의 부재다. 단어 벡터의 평균은 어순과 통사 구조를 버린다. *“The cat sat on the mat”*과 *“The mat sat on the cat”*은 같은 평균 벡터를 갖는다.

ELMo는 BiLSTM으로 문맥 의존 벡터를 제공해 첫 번째와 두 번째 한계를 부분 해결했다. BERT는 Transformer + Masked LM으로 진정한 양방향 문맥을 통합해 GLUE 평균 82점(ELMo 71점)으로 도약했다. GPT 계열의 Causal LM은 생성에 친화적인 대안이다. Kaplan(2020)의 스케일링 법칙은 모델 크기, 데이터, 연산량이 증가할수록 손실이 멱함수로 감소함을 보였고, 이것이 GPT-3(175B)와 그 이후의 LLM을 이끈 근거다.

정리

Intrinsic(WordSim, Google Analogy)과 extrinsic(NER, POS, 감성) 평가는 측정 대상이 다르다. 하나로 다른 하나를 대체할 수 없다.
태스크마다 최적 embedding이 다르다. NER은 FastText, 감성은 GloVe도 충분하고, 품질이 최우선이면 BERT다.
다언어 embedding은 zero-shot 전이를 가능하게 하지만, 저자원 언어의 품질 격차는 스케일만으로 완전히 해소되지 않는다.
Static embedding의 세 한계(다의어, 문맥 무감각, 문장 표현 부재)가 ELMo → BERT → LLM으로의 전환을 필연으로 만들었다.

다음 단계는 이 한계들을 구체적으로 해결한 ELMo, BERT, GPT의 architecture 설계와 pretraining objective의 수학적 유도다.

REF

Schnabel et al. · 2015 · Evaluation methods for unsupervised word embeddings · EMNLP

REF

Conneau et al. · 2020 · Unsupervised Cross-lingual Representation Learning at Scale · ACL