FlashMLA : Un noyau de décodage MLA efficace pour les GPU Hopper

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

FlashMLA : Un noyau de décodage MLA efficace pour les GPU Hopper

2025-02-24

FlashMLA est un noyau de décodage MLA hautement efficace optimisé pour les GPU Hopper, conçu pour servir des séquences de longueur variable. Atteignant jusqu'à 3000 Go/s en configuration limitée par la mémoire et 580 TFLOPS en configuration limitée par le calcul sur H800 SXM5 en utilisant CUDA 12.6, FlashMLA utilise une précision BF16 et un kvcache paginé avec une taille de bloc de 64. Inspiré par les projets FlashAttention 2&3 et Cutlass, FlashMLA offre des améliorations de performance significatives pour le traitement de séquences à grande échelle.

(github.com)

Développement Décodage MLA

Lignes électriques abandonnées en Californie : une bombe à retardement ?

Rétrospective d'un blogueur : la valeur des articles d’apprentissage approfondi