AMD RDNA3 GPUにおけるFP32行列乗算の最適化：rocBLASを60％上回る

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

AMD RDNA3 GPUにおけるFP32行列乗算の最適化：rocBLASを60％上回る

2025-03-28

この記事では、AMD RDNA3 GPUでrocBLASを60%上回る性能のFP32行列乗算カーネルを作成する最適化の過程を詳しく説明しています。著者は、ナイーブな実装から始めて、ISAレベルの最適化へと段階的に8つのカーネルを改良しました。手法としては、LDSタイリング、レジスタタイリング、グローバルメモリダブルバッファリング、LDS利用率の最適化、そして最終的にはISAレベルでのVALU最適化とループアンローリングなどが含まれます。最終的なカーネルはrocBLASを上回り、約50TFLOPSを達成しました。

(seb-v.github.io)

開発

あなたのテレビはあなたを監視している：ストリーミング広告の台頭とプライバシーの代償

ボディオイド：未来医療における倫理と技術のせめぎあい