tag

#triton

총 2개의 글

AI 2026.05.03 · 10 min Advanced Pytorch Internals Deep Dive · 5

cpp_extension JIT 컴파일부터 Triton block-level 추상화, cuBLAS/cuDNN 선택 기준, kernel fusion의 정량적 효과까지, PyTorch가 GPU 메모리를 다루는 방식을 추적한다.

AI 2026.05.03 · 11 min Advanced Efficient Ml Deep Dive · 6

Standard attention의 HBM 병목 원인부터 Online Softmax의 결합법칙, FlashAttention의 tiling 전략, v2/v3의 하드웨어 최적화까지, attention 효율화의 설계 계보를 추적한다.