FlashMLA: Kernel de Decodificación MLA Eficiente para GPUs Hopper
2025-02-24
FlashMLA es un kernel de decodificación MLA eficiente, optimizado para GPUs Hopper, diseñado para servir secuencias de longitud variable. Alcanzando hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por computación en H800 SXM5 usando CUDA 12.6, FlashMLA utiliza precisión BF16 y un kvcache paginado con un tamaño de bloque de 64. Inspirado en los proyectos FlashAttention 2&3 y Cutlass, FlashMLA ofrece mejoras significativas de rendimiento para el procesamiento de secuencias a gran escala.
Desarrollo
Decodificación MLA