AI 自动生成CUDA内核超越 PyTorch?
2025-05-30
研究人员利用大型语言模型,通过自然语言推理和分支式搜索策略,自动生成了纯CUDA-C内核,无需借助CUTLASS或Triton等库。令人惊讶的是,这些AI生成的内核在某些情况下甚至超过了PyTorch中经过专家优化的生产内核的性能,例如在Conv2D运算中速度提升近两倍。该方法的核心在于将优化策略转化为自然语言,并通过分支搜索实现并行探索,有效避免了局部最优解。虽然目前FP16矩阵乘法和Flash Attention的性能还有待提高,但这项研究为高性能内核自动生成开辟了新的方向,预示着AI在优化编译器方面的巨大潜力。
AI
内核生成