AI生成CUDAカーネルがPyTorchを凌駕?
2025-05-30
研究者らは、大規模言語モデルと新規の分岐探索戦略を用いて、CUTLASSやTritonといったライブラリに頼ることなく、純粋なCUDA-Cカーネルを自動生成しました。驚くべきことに、これらのAI生成カーネルは、いくつかのケースにおいて、PyTorchの専門家によって最適化されたプロダクションカーネルのパフォーマンスを上回り、Conv2D演算では約2倍の高速化を実現しました。この手法は、最適化戦略に関する自然言語推論と、分岐探索による並列探索を活用することで、局所最適解を効果的に回避します。FP16行列乗算とFlash Attentionのパフォーマンスはまだ改善の余地がありますが、この研究は高性能カーネルの自動生成において新たな地平を開き、コンパイラ最適化におけるAIの膨大な可能性を示唆しています。
AI
カーネル生成