Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

CUDA下使用Tensor Core优化矩阵乘法内核

2025-04-19

本文详细介绍了作者在NVIDIA Tesla T4 GPU上使用Tensor Core优化CUDA矩阵乘法内核的尝试。目标是尽可能快地计算D = α * A * B + β * C，其中D、A、B和C是大型半精度浮点数矩阵，α和β是常数。作者通过迭代优化六个内核，最终实现了与cuBLAS hgemm实现相当的性能，并分享了优化技巧，包括分块技术、内存层次结构利用、数据重用、计算与数据移动的重叠以及Tensor Core的使用等。

(alexarmbr.github.io)

开发 Tensor Core