AMD RDNA 4アーキテクチャにおけるWMMAカーネルの最適化
2025-07-21

第3世代マトリックスコアを搭載したAMD RDNA™ 4アーキテクチャGPUは、一般化行列乗算(GEMM)演算のパフォーマンスを大幅に向上させました。この記事では、RDNA 4 GPU上のHIPカーネルでWMMA(Wave Matrix Multiply Accumulate)組込み関数を使用して行列演算を最適化する方法について詳しく説明します。WMMAの機能、`__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12`などの新しい組込み関数、およびRDNA 3アーキテクチャとの重要な違いについて説明します。簡素化された多層パーセプトロン(MLP)実装例は、RDNA 4での効率的な行列計算を示しています。
続きを読む
ハードウェア