SWE-bench : Les modèles de langage peuvent-ils résoudre les problèmes GitHub réels ?

2025-01-08
SWE-bench : Les modèles de langage peuvent-ils résoudre les problèmes GitHub réels ?

SWE-bench est un jeu de données de référence qui évalue la capacité des grands modèles de langage à résoudre automatiquement les problèmes GitHub réels. Les chercheurs ont compilé 2 294 paires Issue-Pull Request de 12 référentiels Python populaires, validant les solutions à l'aide de tests unitaires. Le dernier classement montre différents modèles obtenant des taux de réussite variables, certains dépassant 50 % de résolution. Le projet fournit des ressources, notamment une version allégée et des modèles pré-entraînés pour faciliter l'évaluation et la reproductibilité.

Lire plus
Développement Réparation de Code