Évaluation des capacités de génération de code des LLMs : Présentation de MultiCodeBench

Les assistants de programmation basés sur l’IA et alimentés par des grands modèles de langage (LLM) de code sont devenus de plus en plus répandus, augmentant considérablement la productivité des développeurs. Cependant, les benchmarks existants de génération de code se concentrent principalement sur des scénarios à usage général, laissant les performances des LLM dans des domaines d’application spécifiques largement inconnues. Cet article présente MultiCodeBench, un nouveau benchmark composé de 2 400 tâches de programmation dans 12 domaines populaires de développement de logiciels et 15 langages de programmation. Des expériences sur onze LLM principaux révèlent leurs performances en matière de génération de code dans différents domaines, offrant des informations pratiques aux développeurs pour la sélection des LLM et des conseils aux développeurs de modèles pour améliorer les capacités de génération de code spécifiques à un domaine.