FlashMLA: Kernel de Decodificação MLA Eficiente para GPUs Hopper

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

FlashMLA: Kernel de Decodificação MLA Eficiente para GPUs Hopper

2025-02-24

FlashMLA é um kernel de decodificação MLA eficiente, otimizado para GPUs Hopper, projetado para servir sequências de comprimento variável. Alcançando até 3000 GB/s em configurações limitadas por memória e 580 TFLOPS em configurações limitadas por computação em H800 SXM5 usando CUDA 12.6, o FlashMLA usa precisão BF16 e um kvcache com paginação e tamanho de bloco de 64. Inspirado nos projetos FlashAttention 2&3 e Cutlass, o FlashMLA oferece melhorias significativas de desempenho para processamento de sequências em larga escala.

(github.com)

Desenvolvimento GPU Hopper Decodificação MLA

Linhas de energia abandonadas na Califórnia: um risco crescente de incêndios

Retrospectiva do Blogueiro: O Valor das Postagens de Aprendizagem em Imersão