tag

#evaluation

총 2개의 글

AI 2026.05.03 · 13 min Advanced Llm Alignment Deep Dive · 6

Length bias의 수학적 근원부터 Gao 2023 scaling law의 최적 KL, β 범위, PPO/DPO의 수렴 보장, 평가 왜곡까지 — alignment training의 구조적 취약점을 추적한다.

AI 2026.05.03 · 12 min Intermediate Nlp Foundations Deep Dive · 7

Intrinsic 벤치마크의 Spearman 상관이 downstream F1을 보장하지 않는 이유부터, 다언어 전이와 Static embedding의 한계까지, NLP 평가 철학의 전체 지형을 추적한다.