超越cuBLAS:单精度矩阵乘法的CUDA实现

2025-01-18

本文介绍了一个单精度通用矩阵乘法(SGEMM)的CUDA实现,其性能在某些情况下超过了cuBLAS。作者通过巧妙运用PTX指令、异步内存复制、双缓冲等技术,并针对NVIDIA RTX 3090进行了优化,实现了高效的矩阵乘法运算。文章详细解释了算法设计、优化技巧以及基准测试方法,为CUDA学习者提供了宝贵的经验。

阅读更多
开发

用150行C代码击败NumPy的矩阵乘法

2024-07-04

这篇博客文章介绍了如何用150行C代码实现高效的CPU矩阵乘法算法,其性能超越了NumPy。文章首先分析了NumPy的矩阵乘法性能,并介绍了BLIS库的设计思路。然后,作者逐步讲解了如何使用SIMD指令和缓存优化来提高矩阵乘法性能,并使用OpenMP实现了多线程加速。最终的实现版本在AMD Ryzen 7700处理器上达到了超过1 TFLOPS的峰值性能。

阅读更多
未分类