RAG의 상한선은 어디서 결정되는가
IR의 수학적 정식화부터 BM25의 확률론적 유도, 평가 메트릭의 이론적 근거, two-stage pipeline의 recall bound까지 — retrieval 시스템의 설계 원리를 추적한다.
총 7편 · 순서대로 읽기를 권장
IR의 수학적 정식화부터 BM25의 확률론적 유도, 평가 메트릭의 이론적 근거, two-stage pipeline의 recall bound까지 — retrieval 시스템의 설계 원리를 추적한다.
어휘 부족 문제부터 In-Batch Negatives, Hard Negative Mining, 그리고 Weakly-Supervised 학습까지 — Dense Retrieval이 필연적으로 선택된 이유를 추적한다.
Full attention의 정확성과 벡터 인덱싱의 속도를 동시에 가질 수 없다는 근본 제약부터, Late Interaction이 그 경계를 어떻게 밀어내는지 추적한다.
Exact NN의 O(N·d) 한계부터 LSH, IVF, PQ, HNSW, 그리고 Qdrant·Milvus까지 — Recall-Latency 트레이드오프를 지배하는 설계 원리를 추적한다.
검색과 생성의 단순 연결에서 시작해 adaptive retrieval과 confidence-based routing까지, RAG 아키텍처의 설계 결정들을 추적한다.
Dense retriever의 recall 한계부터 LLM-as-Reranker의 비용까지, 두 단계 검색 파이프라인의 설계 철학을 추적한다.
entity-relation 그래프로 global question을 해결하는 GraphRAG부터 OCR 없이 PDF 페이지를 직접 임베딩하는 ColPali, Lost-in-the-Middle을 피하는 Late Chunking까지, RAG frontier의 설계 원리를 추적한다.