从零开始在CPU上实现快速多维矩阵乘法

2024-07-31

这篇文章探讨了如何在CPU上从零开始实现高效的多维矩阵乘法。作者首先分析了Numpy是如何利用高度优化的BLAS库实现快速矩阵乘法的,指出Numpy在Intel CPU上可以达到每周期18 FLOPS的惊人速度。然后,作者尝试使用C++从头实现矩阵乘法,并通过缓存感知循环排序、分块和多线程等优化技术,逐步提高代码的性能。最终,作者实现了一个性能约为Numpy一半的版本,并总结了优化矩阵乘法的关键在于深入理解CPU架构和缓存机制,以及选择合适的优化策略。

阅读更多

如何优化CUDA矩阵乘法内核以获得类似cuBLAS的性能:工作日志

2024-07-26

这篇文章详细介绍了如何逐步优化CUDA矩阵乘法内核,目标是在不构建cuBLAS替代方案的情况下,深入理解用于现代深度学习的GPU最重要的性能特征。文章从一个简单的内核开始,逐步应用全局内存合并、共享内存缓存、一维和二维块分块、向量化内存访问、自动调整和扭曲分块等优化,最终在A6000 GPU上实现了21.7 TFLOPs的性能,接近cuBLAS的23.2 TFLOPs。

阅读更多
未分类