DeepGEMM:高效FP8矩阵乘法库,性能超越专家级调优库
2025-02-26
DeepGEMM是一个针对NVIDIA Hopper架构Tensor Core优化的FP8通用矩阵乘法(GEMM)库。它采用轻量级JIT编译,无需安装时编译,支持普通和混合专家(MoE)分组GEMM。通过CUDA核心两级累加(提升)来解决FP8精度问题,其简洁的设计(~300行核心代码)使其易于学习和理解Hopper FP8矩阵乘法优化技术。尽管轻量级,DeepGEMM的性能在各种矩阵形状上都匹配甚至超越了专家级调优库。