Tensor Coreを用いたCUDAにおける行列乗算カーネルの最適化

2025-04-19

この記事では、NVIDIA Tesla T4 GPU上でTensor Coreを用いてCUDA行列乗算カーネルを最適化する取り組みについて詳述しています。目標は、D = α * A * B + β * Cを可能な限り高速に計算することです。6つのカーネルを反復的に最適化することで、著者はNVIDIAのcuBLAS hgemmと同等の性能を達成し、階層的タイリング、メモリ階層の活用、データの再利用、計算とデータ移動のオーバーラップ、Tensor Coreの効率的な使用などの手法を強調しています。著者はプロファイリングと最適化から得られた知見を共有し、算術強度とメモリ帯域幅の重要性を強調しています。

続きを読む
開発