AVX-VNNIによるバイト行列乗算の最適化
2025-01-10
この記事では、AVX-VNNI命令セットを使用してバイト行列乗算を最適化する方法を探ります。著者はまずナイーブな実装から始め、次にgemmologyとxsimdライブラリを使用して、転置とカスタムレイアウトを用いた最適化バージョンを作成します。ベンチマークの結果は、カスタムレイアウトが最高の性能を達成し、vpdpbusd命令を活用して効率を大幅に向上させることを示しています。この記事では、gemmologyライブラリのmaddw関数の詳細な実装と、アーキテクチャのバリエーションについても掘り下げて説明します。
開発
行列乗算