超越cuBLAS和CUTLASS:一种新的矩阵乘法内核引擎

2025-07-19
超越cuBLAS和CUTLASS:一种新的矩阵乘法内核引擎

现代AI计算的核心是矩阵乘法,而其速度直接影响模型能力。现有硬件加速器(如NVIDIA的Tensor Core)虽然高效,但缺乏灵活性。本文介绍了一种名为CubeCL的新引擎,它通过分层抽象(Tile、Stage、Global、Batch Matmul)以及多种算法(Simple,Double Buffering,Ordered等),实现了跨平台优化的矩阵乘法内核生成。CubeCL巧妙地利用GPU架构特性,例如平面同步执行和内存合并访问,并通过双缓冲等技术来隐藏内存延迟,在各种GPU(包括NVIDIA、AMD和Apple Silicon)上都取得了显著的性能提升,甚至在某些情况下超越了cuBLAS和CUTLASS。

开发