Des noyaux CUDA générés par IA surpassent-ils PyTorch ?
Des chercheurs ont utilisé de grands modèles de langage et une nouvelle stratégie de recherche arborescente pour générer automatiquement des noyaux CUDA-C purs sans dépendre de bibliothèques telles que CUTLASS ou Triton. Étonnamment, ces noyaux générés par IA surpassent dans certains cas même les noyaux de production optimisés par des experts dans PyTorch, atteignant près du double de la vitesse pour l'opération Conv2D. La méthode exploite le raisonnement en langage naturel sur les stratégies d'optimisation et une recherche arborescente pour explorer plusieurs hypothèses en parallèle, évitant efficacement les optima locaux. Bien que les performances de la multiplication matricielle FP16 et de l'attention Flash nécessitent encore des améliorations, cette recherche ouvre une nouvelle frontière dans l'auto-génération de noyaux hautes performances, suggérant l'immense potentiel de l'IA dans l'optimisation des compilateurs.
Lire plus