LLM 사전학습 데이터는 어떻게 설계되는가
말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.
- 01 LLM 학습 규모는 어떻게 결정되는가
- 02 LLM 사전학습의 설계 결정들은 어디서 오는가
- 03 LLM 사전학습이 불안정한 이유는 하나다
- 04 LLM 사전학습 데이터는 어떻게 설계되는가
- 05 토큰화는 왜 모델의 성능을 결정하는가
- 06 LLM 아키텍처 설계의 다섯 가지 선택
LLM의 성능을 결정하는 것은 모델 구조나 최적화 기법만이 아니다. 어떤 데이터를, 어떻게 고르고, 얼마나 섞느냐 — 이 세 가지 결정이 학습 전에 이미 성능의 상당 부분을 결정한다. 그렇다면 1조 토큰짜리 말뭉치는 어떤 원칙으로 설계되는가?
말뭉치의 구조: 왜 70%가 Common Crawl인가
현대 LLM의 학습 데이터는 대략 다음 구성을 따른다.
Common Crawl (Web) ~70% 저품질 혼합, 폭넓은 언어 커버리지
Wikipedia 1-3% 고품질, 구조화된 사실 정보
Books 5-10% 장형식 문서, 문맥 이해
GitHub Code 5-15% 실행 가능한 구조, 논리 추론
ArXiv / Math 1-5% 수식, 학술 표현
Common Crawl이 압도적으로 많은 이유는 단순히 가장 크기 때문이 아니다. 다양성이 가장 넓기 때문이다. 단, 이 다양성에는 스팸, 반복 텍스트, 저품질 페이지가 뒤섞여 있다.
Code와 Math 영역은 corpus 비중 이상으로 **과대 표집(oversampling)**된다. 그 이유는 정량적으로 설명된다 — 짧은 토큰 시퀀스가 지배하는 말뭉치에서는 모델이 장거리 의존성을 학습하기 어렵고, 코드와 수학 문서는 논리 구조를 명시적으로 담고 있어 추론 능력 향상에 기여한다.
품질 필터링: 양보다 밀도
FineWeb(Penedo et al., 2024)의 실험은 이 직관을 수치로 보여준다. 750B 토큰의 Common Crawl에서 15B 토큰(2%)만 추출했는데, 성능이 오히려 향상됐다.
필터링은 두 단계로 이뤄진다.
Gopher rules(Rae et al., 2022)는 빠른 heuristic 필터다. 단어 수 50 미만, 줄 반복률 10% 초과, 알파벳 비율 60% 미만, NSFW 키워드 포함 — 이 조건을 하나라도 위반하면 제거한다. 약 50%를 걸러내고 perplexity를 6.5% 개선한다.
LLM classifier 방식은 LLaMA-3 70B 같은 대형 모델로 각 문서에 품질 점수 를 부여한다. 상위 2-4%만 선택한다. 정확하지만 비용이 비싸다.
필터링 이후에는 중요도 가중치(importance weighting)를 적용한다.
선택 확률 로 샘플링하고 가중치 를 곱하면, 실제 분포 에서 샘플링한 기대값과 동일하다.
중복 제거: MinHash와 Jaccard
Common Crawl의 15% 중복률은 학습 효율을 직접 갉아먹는다. Lee et al.(2022)의 측정에 따르면, 줄 단위 중복 제거로 실제 학습량 20%를 줄이면서도 perplexity를 9% 개선했다.
문제는 수백억 문서를 모두 쌍으로 비교하면 라는 점이다. MinHash LSH가 이 문제를 으로 줄인다.
핵심 정리는 다음과 같다.
두 집합 와 랜덤 순열 에 대해:
랜덤 순열 에서 의 원소 중 가장 먼저 등장하는 원소 를 고를 때, 일 확률은 이다. 이 사건이 정확히 이므로 동치.
개 순열로 만든 signature를 개 band로 나누어 LSH 버킷에 배분하면, Jaccard 유사도 인 pair가 candidate로 검출될 확률은 다음과 같다.
로 설정하면 인 pair를 약 99.7% 확률로 포착한다. b와 r 조합으로 false positive와 false negative의 균형을 직접 조절할 수 있다.
DoReMi: 도메인 가중치를 최적화하는 방법
품질 필터링과 중복 제거가 끝나도 질문은 남는다. web 40%, code 25%, math 20%, book 15% — 이 비율이 최선인가? 어떻게 결정하는가?
DoReMi(Xie et al., 2023)의 아이디어는 Group DRO(Distributionally Robust Optimization)에 기반한다.
“최악의 도메인도 괜찮도록” 가중치를 찾는 것이다. 알고리즘은 multiplicative weight update(MWU)로 구현된다.
여기서 는 excess loss다. 어려운 도메인은 가중치가 올라가고, 쉬운 도메인은 내려간다. 수렴하면 모든 도메인의 loss 차이가 로 줄어든다.
핵심은 280M 소형 모델로 10-20회 반복 후 얻은 가중치를 8B 모델에 그대로 적용한다는 점이다. 실증 결과 25% 내외의 loss 감소가 나타났다.
DoReMi는 도메인 수가 적을 때 효과적이다. 도메인이 많아지면 grid search 비용이 기하급수적으로 증가한다. 또한 280M과 8B 사이의 모델 스케일 차이가 가중치 전이 정확도에 영향을 줄 수 있다 — 경험적으로 optimal ratio의 순위(ranking)는 안정적이지만, 정확한 수치는 3-5% 오차 범위 내에 있다.
Data Mixing Laws: 외삽으로 최적 비율 예측하기
DoReMi가 반복 학습으로 가중치를 찾는다면, Data Mixing Laws(Ye et al., 2024)는 closed-form 예측을 목표로 한다.
각 도메인의 손실 기여가 비중 에 대해 power law로 감소한다는 가정이다. Exponent 가 클수록 해당 도메인이 중요하다 — 를 조금만 줄여도 loss가 급격히 오른다.
최적 혼합비는 Lagrange multiplier로 구한다.
Ye et al.의 실험에서 280M 모델로 fitting한 를 7B 모델에 외삽하면 최적 비율 오차가 5% 미만으로 유지됐다. 25배 스케일 차이에도 는 안정적으로 유지되기 때문이다.
정리
- 말뭉치 구성은 단순한 데이터 수집이 아니라 설계 결정이다. Common Crawl 70%는 다양성을 위한 선택이고, Code/Math 과대 표집은 추론 능력을 위한 투자다.
- 품질은 양보다 중요하다. FineWeb은 원본의 2%로 동등하거나 더 나은 성능을 보였다.
- MinHash LSH는 정리 위에 세워진 중복 제거 알고리즘이다.
- DoReMi는 소형 proxy 모델로 찾은 도메인 가중치를 대형 모델에 전이해 25% 내외의 loss 감소를 달성한다.
- Data Mixing Laws는 형태로 최적 혼합비를 예측 — 반복 실험 없이 스케일업이 가능하다.
데이터 파이프라인의 모든 단계는 결국 하나의 질문으로 귀결된다 — 같은 계산 예산 안에서 모델이 최대한 많이 배우려면, 무엇을 보여줘야 하는가.