AVX-VNNI 指令集下的字节矩阵乘法优化

2025-01-10
AVX-VNNI 指令集下的字节矩阵乘法优化

本文研究了如何利用AVX-VNNI指令集优化字节矩阵乘法。作者首先实现了一个朴素的矩阵乘法,然后利用gemmology和xsimd库分别实现了基于转置和特殊布局的优化版本。实验结果表明,特殊布局的版本性能最佳,其核心循环利用了vpdpbusd指令,显著提升了计算效率。作者还深入探讨了gemmology库中maddw函数的实现细节以及不同架构下的差异。

开发 AVX-VNNI