DeepGEMM：高效FP8矩阵乘法库，性能超越专家级调优库

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

DeepGEMM：高效FP8矩阵乘法库，性能超越专家级调优库

2025-02-26

DeepGEMM是一个针对NVIDIA Hopper架构Tensor Core优化的FP8通用矩阵乘法(GEMM)库。它采用轻量级JIT编译，无需安装时编译，支持普通和混合专家(MoE)分组GEMM。通过CUDA核心两级累加(提升)来解决FP8精度问题，其简洁的设计(~300行核心代码)使其易于学习和理解Hopper FP8矩阵乘法优化技术。尽管轻量级，DeepGEMM的性能在各种矩阵形状上都匹配甚至超越了专家级调优库。

(github.com)

开发 FP8 GEMM Hopper

戈尔巴乔夫改革：一场“无奈”还是“鲁莽”的革命？

智利全国大停电：百万民众受影响