FlashMLA:Hopper GPU上的高效MLA解码内核
2025-02-24
FlashMLA是一个针对Hopper GPU优化的高效MLA解码内核,专为可变长度序列服务而设计。它在H800 SXM5上实现了高达3000 GB/s的内存受限配置和580 TFLOPS的计算受限配置的性能(使用CUDA 12.6)。FlashMLA支持BF16精度和64块大小的分页kvcache。其灵感来自FlashAttention 2&3和cutlass项目。