AI 2026.05.03 · 13 min
Advanced Llm Pretraining Deep Dive · 4
LLM 사전학습 데이터는 어떻게 설계되는가
말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.
총 1개의 글
말뭉치 구성과 품질 필터링부터 MinHash 중복 제거, DoReMi 도메인 가중치 최적화, Data Mixing Laws까지 — LLM 사전학습 데이터 파이프라인의 핵심 원리를 추적한다.