cuBLASとCUTLASSを超える:革新的な行列乗算カーネルエンジン

2025-07-19
cuBLASとCUTLASSを超える:革新的な行列乗算カーネルエンジン

行列乗算は、特にAI分野において、その速度がモデルの能力に直接影響を与えるため、現代計算の中核をなしています。NVIDIAのTensor Coreなどのハードウェアアクセラレータは効率的ですが、柔軟性に欠けます。本稿では、プラットフォームを跨いでの最適化された行列乗算カーネルを生成する、CubeCLという新しいエンジンを紹介します。CubeCLは、階層的な抽象化(Tile、Stage、Global、Batch Matmul)と様々なアルゴリズム(Simple、Double Buffering、Orderedなど)を用いてこれを達成します。GPUアーキテクチャの特徴、例えばプレーン同期実行やコアレースドメモリアクセスを巧みに活用し、ダブルバッファリングなどの手法を用いてメモリレイテンシを隠蔽します。ベンチマークは、様々なGPU(NVIDIA、AMD、Apple Silicon)において、顕著な性能向上を示しており、場合によってはcuBLASやCUTLASSを凌駕する結果となっています。

開発