AI 2026.05.03 · 12 min
Advanced Pretrained Lm Deep Dive · 2
BERT는 어떻게 언어를 '이해'하는가
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.
총 3개의 글
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.
Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.
Transformer 의 다섯 변형이 '맥락을 어떻게 쓸 것인가'라는 하나의 질문에 각자 다르게 답하는 방식부터, MoE 가 파라미터와 계산을 분리하는 원리까지, 아키텍처 설계 철학의 흐름을 추적한다.