KI-generierte CUDA-Kernels übertreffen PyTorch?

2025-05-30

Forscher nutzten große Sprachmodelle und eine neuartige verzweigte Suchstrategie, um automatisch reine CUDA-C-Kernels zu generieren, ohne auf Bibliotheken wie CUTLASS oder Triton angewiesen zu sein. Überraschenderweise übertreffen diese KI-generierten Kernels in einigen Fällen sogar die von Experten optimierten Produktionskernels in PyTorch und erreichen bei der Conv2D-Operation fast die doppelte Geschwindigkeit. Die Methode nutzt das sprachliche Schlussfolgern über Optimierungsstrategien und eine verzweigte Suche, um mehrere Hypothesen parallel zu untersuchen und lokale Optima effektiv zu vermeiden. Obwohl die Leistung der FP16-Matrixmultiplikation und der Flash-Attention noch verbessert werden muss, eröffnet diese Forschung eine neue Grenze in der automatischen Generierung von Hochleistungs-Kernels und deutet auf das immense Potenzial der KI in der Compileroptimierung hin.