#sparse-activation

AI 2026.05.03 · 10 min Advanced Llm Efficiency Deep Dive · 5

Sparse activation의 정식화부터 load balancing loss, token dropping, 그리고 scaling law까지 — MoE가 dense를 넘어서는 이유를 추적한다.