FlashMLA:Hopper GPU向けの高効率MLAデコードカーネル

2025-02-24
FlashMLA:Hopper GPU向けの高効率MLAデコードカーネル

FlashMLAは、可変長シーケンスの提供用に最適化された、Hopper GPU向けの非常に効率的なMLAデコードカーネルです。CUDA 12.6を使用するH800 SXM5では、メモリバウンド構成で最大3000 GB/s、計算バウンド構成で580 TFLOPSの性能を実現します。FlashMLAは、BF16精度とブロックサイズ64のページングされたkvcacheを使用します。FlashAttention 2&3とCutlassプロジェクトにインスパイアされたFlashMLAは、大規模シーケンス処理において大幅なパフォーマンス向上を提供します。