Luminal : Une bibliothèque d'apprentissage profond haute performance avec compilation basée sur la recherche
Luminal est une bibliothèque d'apprentissage profond qui atteint des performances élevées grâce à une compilation basée sur la recherche. Son cœur est remarquablement minimal, reposant sur seulement 12 opérations primitives, tout en étant capable de prendre en charge des modèles complexes tels que les Transformers et les réseaux convolutionnels. En fusionnant agressivement les noyaux et en compilant des noyaux spécifiques à la forme au moment de la compilation, Luminal surmonte les limitations typiques des architectures RISC et dérive automatiquement des optimisations complexes comme Flash Attention. Son approche de compilation statique évite la surcharge d'exécution, avec la prise en charge de Metal et CUDA, permettant une exécution rapide sur les Mac et les GPU Nvidia. Des gains de performance significatifs ont été démontrés sur des modèles tels que Llama 3 8B.