SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?
2025-01-08
SWE-bench es un conjunto de datos de referencia que evalúa la capacidad de los modelos de lenguaje grandes para resolver automáticamente problemas reales de GitHub. Los investigadores recopilaron 2294 pares de Issue-Pull Request de 12 repositorios populares de Python, validando las soluciones mediante pruebas unitarias. El ranking más reciente muestra varios modelos alcanzando tasas de éxito variables, con algunos superando el 50% de resolución. El proyecto proporciona recursos, incluyendo una versión ligera y modelos preentrenados para facilitar la evaluación y la reproducibilidad.
Leer más
Desarrollo
Reparación de Código