DEV 2026.05.02 · 14 min
Intermediate Elasticsearch Deep Dive · 5
Elasticsearch 집계는 왜 느리고, 왜 틀릴 수 있는가
Bucket·Metric·Pipeline 3계층 구조와 분산 집계의 2페이즈 실행부터, Terms 오차·fielddata OOM·성능 최적화 전략까지 집계 아키텍처 전체를 추적한다.
총 7개의 글
Bucket·Metric·Pipeline 3계층 구조와 분산 집계의 2페이즈 실행부터, Terms 오차·fielddata OOM·성능 최적화 전략까지 집계 아키텍처 전체를 추적한다.
Lucene 위에 쌓인 5계층 구조부터 Split-Brain 방지, 라우팅 수식, Scatter-Gather 읽기 경로까지 Elasticsearch의 설계 결정을 추적한다.
MySQL LIKE 검색의 Full Scan 한계부터 FST 압축, 불변 세그먼트, NRT, doc_values까지 — Elasticsearch 내부 설계 결정의 공통 원리를 추적한다.
샤드 크기 설계부터 ILM 생명주기, 힙 메모리 제한, 쓰기 최적화, 캐시 전략, 장애 복구까지 — Elasticsearch 운영의 핵심 트레이드오프를 추적한다.
Query Context와 Filter Context의 내부 분기부터 BM25 수식, 분산 IDF 편차, HNSW 벡터 검색까지, Elasticsearch 검색 파이프라인의 설계 철학을 추적한다.
매핑 어노테이션의 변환 원리부터 인덱싱 전략, 쿼리 선택, 무중단 재인덱싱까지 — Spring Data Elasticsearch 실전 운영의 핵심 설계 결정을 추적한다.
분석 파이프라인의 3단계 구조부터 Nori 형태소 분석, 동의어·n-gram 커스텀 설계, 매핑 폭발 방지, Analyzer 불일치 디버깅까지, 검색 품질의 뿌리를 추적한다.