FlashMLA: Effizienter MLA-Dekodieren-Kernel für Hopper-GPUs

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

FlashMLA: Effizienter MLA-Dekodieren-Kernel für Hopper-GPUs

2025-02-24

FlashMLA ist ein hocheffizienter MLA-Dekodieren-Kernel, optimiert für Hopper-GPUs und entwickelt für die Verarbeitung von Sequenzen variabler Länge. Er erreicht bis zu 3000 GB/s in speichergebundenen Konfigurationen und 580 TFLOPS in berechnungsgebundenen Konfigurationen auf H800 SXM5 mit CUDA 12.6. FlashMLA verwendet BF16-Genauigkeit und einen paginierten kvcache mit einer Blockgröße von 64. Inspiriert von FlashAttention 2&3 und den Cutlass-Projekten, bietet FlashMLA signifikante Performance-Verbesserungen für die Verarbeitung großer Sequenzen.

(github.com)

Entwicklung MLA-Dekodieren

Verlassene Stromleitungen in Kalifornien: Ein tickendes Zeitbombe?

Blogger-Rückblick: Der Wert von Deep-Dive-Lernbeiträgen