FlashMLA：Hopper GPU上的高效MLA解码内核

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

FlashMLA：Hopper GPU上的高效MLA解码内核

2025-02-24

FlashMLA是一个针对Hopper GPU优化的高效MLA解码内核，专为可变长度序列服务而设计。它在H800 SXM5上实现了高达3000 GB/s的内存受限配置和580 TFLOPS的计算受限配置的性能（使用CUDA 12.6）。FlashMLA支持BF16精度和64块大小的分页kvcache。其灵感来自FlashAttention 2&3和cutlass项目。

(github.com)

开发 Hopper GPU MLA解码高效计算

加州废弃高压线引发火灾风险

博客作者总结：深度学习笔记的价值