FlashMLA: Kernel de Decodificação MLA Eficiente para GPUs Hopper
2025-02-24
FlashMLA é um kernel de decodificação MLA eficiente, otimizado para GPUs Hopper, projetado para servir sequências de comprimento variável. Alcançando até 3000 GB/s em configurações limitadas por memória e 580 TFLOPS em configurações limitadas por computação em H800 SXM5 usando CUDA 12.6, o FlashMLA usa precisão BF16 e um kvcache com paginação e tamanho de bloco de 64. Inspirado nos projetos FlashAttention 2&3 e Cutlass, o FlashMLA oferece melhorias significativas de desempenho para processamento de sequências em larga escala.