Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

SWE-bench : Les modèles de langage peuvent-ils résoudre les problèmes GitHub réels ?

2025-01-08

SWE-bench est un jeu de données de référence qui évalue la capacité des grands modèles de langage à résoudre automatiquement les problèmes GitHub réels. Les chercheurs ont compilé 2 294 paires Issue-Pull Request de 12 référentiels Python populaires, validant les solutions à l'aide de tests unitaires. Le dernier classement montre différents modèles obtenant des taux de réussite variables, certains dépassant 50 % de résolution. Le projet fournit des ressources, notamment une version allégée et des modèles pré-entraînés pour faciliter l'évaluation et la reproductibilité.

Lire plus

(www.swebench.com)

Développement Réparation de Code