FlashMLA: Effizienter MLA-Dekodieren-Kernel für Hopper-GPUs

2025-02-24
FlashMLA: Effizienter MLA-Dekodieren-Kernel für Hopper-GPUs

FlashMLA ist ein hocheffizienter MLA-Dekodieren-Kernel, optimiert für Hopper-GPUs und entwickelt für die Verarbeitung von Sequenzen variabler Länge. Er erreicht bis zu 3000 GB/s in speichergebundenen Konfigurationen und 580 TFLOPS in berechnungsgebundenen Konfigurationen auf H800 SXM5 mit CUDA 12.6. FlashMLA verwendet BF16-Genauigkeit und einen paginierten kvcache mit einer Blockgröße von 64. Inspiriert von FlashAttention 2&3 und den Cutlass-Projekten, bietet FlashMLA signifikante Performance-Verbesserungen für die Verarbeitung großer Sequenzen.

Entwicklung MLA-Dekodieren