FlashMLA：Hopper GPU向けの高効率MLAデコードカーネル

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

FlashMLA：Hopper GPU向けの高効率MLAデコードカーネル

2025-02-24

FlashMLAは、可変長シーケンスの提供用に最適化された、Hopper GPU向けの非常に効率的なMLAデコードカーネルです。CUDA 12.6を使用するH800 SXM5では、メモリバウンド構成で最大3000 GB/s、計算バウンド構成で580 TFLOPSの性能を実現します。FlashMLAは、BF16精度とブロックサイズ64のページングされたkvcacheを使用します。FlashAttention 2＆3とCutlassプロジェクトにインスパイアされたFlashMLAは、大規模シーケンス処理において大幅なパフォーマンス向上を提供します。

(github.com)

開発 MLAデコード

カリフォルニア州の放棄された送電線：刻々と迫る脅威

ブロガー回顧録：深い学習記事の価値