用150行C代码击败NumPy的矩阵乘法

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

用150行C代码击败NumPy的矩阵乘法

2024-07-04

这篇博客文章介绍了如何用150行C代码实现高效的CPU矩阵乘法算法，其性能超越了NumPy。文章首先分析了NumPy的矩阵乘法性能，并介绍了BLIS库的设计思路。然后，作者逐步讲解了如何使用SIMD指令和缓存优化来提高矩阵乘法性能，并使用OpenMP实现了多线程加速。最终的实现版本在AMD Ryzen 7700处理器上达到了超过1 TFLOPS的峰值性能。

(salykova.github.io)

未分类

Easy macOS Installation on Any Computer with Proxmox

3D + 2D: Testing out my cross-platform WASM graphics engine | Hacker News