QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

从零开始在CPU上实现快速多维矩阵乘法 (siboehm.com)

这篇文章探讨了如何在CPU上从零开始实现高效的多维矩阵乘法。作者首先分析了Numpy是如何利用高度优化的BLAS库实现快速矩阵乘法的,指出Numpy在Intel CPU上可以达到每周期18 FLOPS的惊人速度。然后,作者尝试使用C++从头实现矩阵乘法,并通过缓存感知循环排序、分块和多线程等优化技术,逐步提高代码的性能。最终,作者实现了一个性能约为Numpy一半的版本,并总结了优化矩阵乘法的关键在于深入理解CPU架构和缓存机制,以及选择合适的优化策略。

如何优化CUDA矩阵乘法内核以获得类似cuBLAS的性能:工作日志 (siboehm.com)

这篇文章详细介绍了如何逐步优化CUDA矩阵乘法内核,目标是在不构建cuBLAS替代方案的情况下,深入理解用于现代深度学习的GPU最重要的性能特征。文章从一个简单的内核开始,逐步应用全局内存合并、共享内存缓存、一维和二维块分块、向量化内存访问、自动调整和扭曲分块等优化,最终在A6000 GPU上实现了21.7 TFLOPs的性能,接近cuBLAS的23.2 TFLOPs。