FlashAttention-3:异步和低精度实现快速、精确的注意力机制

2024-07-11

FlashAttention-3是一种针对英伟达Hopper GPU架构优化的注意力机制算法。它利用了异步Tensor Core和TMA、warp specialization、GEMM与softmax操作交织以及FP8低精度计算等技术,显著提升了注意力机制的速度和效率。相比FlashAttention-2,FP16精度下速度提升1.5-2倍,FP8精度下接近1.2 PFLOPS,且量化误差更小。

未分类 GPU加速