优化WebGPU矩阵乘法内核以实现1TFLOP+性能
2024-11-11
本文作者介绍了如何优化WebGPU矩阵乘法(matmul)内核以达到1TFLOPS+的算术强度。作者开发了一个名为Surfgrad的高性能WebGPU自动微分库,用于浏览器内的张量运算。文章详细解释了WebGPU与CUDA的差异,并逐步优化了一个简单的matmul内核。通过增加线程数、使用二维工作组、内核平铺和循环展开等技术,最终实现了1000倍的性能提升,接近Apple M2 Pro的理论峰值。文章还提到了WebGPU的新特性subgroups,未来可以进一步优化性能。
未分类