Aventura na Implementação do Flash Attention em CUDA C++

2025-08-23

Esta postagem detalha a jornada do autor na implementação e otimização do Flash Attention em CUDA C++. Começando com uma implementação básica, o autor refina progressivamente o kernel usando técnicas como troca de memória compartilhada, pipeline de duas etapas e uso mais eficiente do ldmatrix. Por meio de perfilagem e otimização iterativas, a implementação final atinge um desempenho próximo ao limite teórico do hardware. A postagem também se aprofunda nas complexidades da implementação do softmax online e na resolução de conflitos de banco de memória compartilhada, fornecendo insights valiosos para desenvolvedores CUDA C++.

Leia mais
Desenvolvimento