Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

RDNA3 GPU上的FP32矩阵乘法优化：超越rocBLAS 60%

2025-03-28

本文详细介绍了如何在AMD RDNA3 GPU上编写优化的FP32矩阵乘法，其性能比rocBLAS快60%。作者通过迭代的方式，逐步优化了8个不同的内核，从简单的朴素实现到最终利用指令集级优化，大幅提升了性能。优化策略包括LDS平铺、寄存器平铺、全局内存双缓冲、LDS利用率优化以及指令集级VALU利用率优化和循环展开等。最终实现的内核性能超过了rocBLAS，达到了近50 TFLOPS。

(seb-v.github.io)

开发 RDNA3