AI 2026.05.03 · 12 min
Advanced Pretrained Lm Deep Dive · 2
BERT는 어떻게 언어를 '이해'하는가
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.
총 1개의 글
WordPiece 토크나이징부터 MLM 정보이론, 80/10/10 규칙, NSP의 실패, RoBERTa의 재검증, SpanBERT·DistilBERT·ALBERT 변주까지 — BERT 계열 설계 결정의 통일된 원리를 추적한다.