FlashMLA: Kernel de Decodificación MLA Eficiente para GPUs Hopper

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

FlashMLA: Kernel de Decodificación MLA Eficiente para GPUs Hopper

2025-02-24

FlashMLA es un kernel de decodificación MLA eficiente, optimizado para GPUs Hopper, diseñado para servir secuencias de longitud variable. Alcanzando hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por computación en H800 SXM5 usando CUDA 12.6, FlashMLA utiliza precisión BF16 y un kvcache paginado con un tamaño de bloque de 64. Inspirado en los proyectos FlashAttention 2&3 y Cutlass, FlashMLA ofrece mejoras significativas de rendimiento para el procesamiento de secuencias a gran escala.

(github.com)

Desarrollo Decodificación MLA

Líneas eléctricas abandonadas en California: una amenaza latente de incendios

Retrospectiva del Blogger: El Valor de las Publicaciones de Aprendizaje Profundo