AI 2026.05.05 · 12 min
Advanced Retrieval Rag Deep Dive · 2
Dense Retrieval은 왜 BM25를 이겼는가
어휘 부족 문제부터 In-Batch Negatives, Hard Negative Mining, 그리고 Weakly-Supervised 학습까지 — Dense Retrieval이 필연적으로 선택된 이유를 추적한다.
총 6개의 글
어휘 부족 문제부터 In-Batch Negatives, Hard Negative Mining, 그리고 Weakly-Supervised 학습까지 — Dense Retrieval이 필연적으로 선택된 이유를 추적한다.
Generative, Contrastive, Self-Distillation — label 없이 representation을 학습하는 세 패러다임의 손실함수, 수렴점, 그리고 트레이드오프를 하나의 프레임으로 추적한다.
CLIP의 대칭 손실부터 Flamingo의 gated cross-attention까지, 이미지와 텍스트를 하나의 공간에 정렬하는 핵심 메커니즘을 추적한다.
MI의 기본 정의부터 DPI, Fano 부등식, MINE 추정, InfoNCE 기반 대조학습까지 — 표현학습의 설계 결정을 하나의 정보이론적 프레임으로 추적한다.
ERM의 Dirac delta 근사부터 Contrastive Learning의 augmentation-defined semantics까지, 현대 정규화 기법의 통일된 수학적 기반을 추적한다.
분류의 softmax gradient부터 탐지의 Focal Loss, 분할의 Dice Loss, 자기지도학습의 contrastive loss까지, CNN 각 응용 영역의 손실 함수 설계 철학을 추적한다.