FlashMLA : Un noyau de décodage MLA efficace pour les GPU Hopper
2025-02-24
FlashMLA est un noyau de décodage MLA hautement efficace optimisé pour les GPU Hopper, conçu pour servir des séquences de longueur variable. Atteignant jusqu'à 3000 Go/s en configuration limitée par la mémoire et 580 TFLOPS en configuration limitée par le calcul sur H800 SXM5 en utilisant CUDA 12.6, FlashMLA utilise une précision BF16 et un kvcache paginé avec une taille de bloc de 64. Inspiré par les projets FlashAttention 2&3 et Cutlass, FlashMLA offre des améliorations de performance significatives pour le traitement de séquences à grande échelle.
Développement
Décodage MLA