FlashMLA: Kernel de Decodificación MLA Eficiente para GPUs Hopper

2025-02-24
FlashMLA: Kernel de Decodificación MLA Eficiente para GPUs Hopper

FlashMLA es un kernel de decodificación MLA eficiente, optimizado para GPUs Hopper, diseñado para servir secuencias de longitud variable. Alcanzando hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por computación en H800 SXM5 usando CUDA 12.6, FlashMLA utiliza precisión BF16 y un kvcache paginado con un tamaño de bloque de 64. Inspirado en los proyectos FlashAttention 2&3 y Cutlass, FlashMLA ofrece mejoras significativas de rendimiento para el procesamiento de secuencias a gran escala.

Desarrollo Decodificación MLA