CUDA下使用Tensor Core优化矩阵乘法内核

2025-04-19

本文详细介绍了作者在NVIDIA Tesla T4 GPU上使用Tensor Core优化CUDA矩阵乘法内核的尝试。目标是尽可能快地计算D = α * A * B + β * C,其中D、A、B和C是大型半精度浮点数矩阵,α和β是常数。作者通过迭代优化六个内核,最终实现了与cuBLAS hgemm实现相当的性能,并分享了优化技巧,包括分块技术、内存层次结构利用、数据重用、计算与数据移动的重叠以及Tensor Core的使用等。

开发 Tensor Core