MLC-LLM : Rendre les GPU AMD compétitives pour l'inférence de LLM
Les GPU NVIDIA ont longtemps dominé le paysage de l'inférence des grands modèles de langage (LLM). Cependant, le projet MLC-LLM utilise la compilation d'apprentissage automatique pour déployer avec succès les LLM sur les GPU AMD, obtenant des résultats impressionnants. Utilisant ROCm et Vulkan, l'AMD Radeon RX 7900 XTX atteint 80% de la vitesse de la NVIDIA RTX 4090 et 94% de la RTX 3090 Ti pour l'inférence Llama2-7B/13B. Cela améliore considérablement la compétitivité des GPU AMD et élargit les options de déploiement des LLM, s'étendant aux APU AMD comme celles présentes dans le Steam Deck. Les développements futurs pour MLC-LLM incluent des optimisations pour le traitement par lots, la prise en charge multi-GPU, la quantification et les architectures de modèles étendues, et une réduction supplémentaire de l'écart de performance avec NVIDIA, pour finalement résoudre les problèmes de calcul de l'IA.
Lire plus