Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?

2025-01-08

SWE-bench es un conjunto de datos de referencia que evalúa la capacidad de los modelos de lenguaje grandes para resolver automáticamente problemas reales de GitHub. Los investigadores recopilaron 2294 pares de Issue-Pull Request de 12 repositorios populares de Python, validando las soluciones mediante pruebas unitarias. El ranking más reciente muestra varios modelos alcanzando tasas de éxito variables, con algunos superando el 50% de resolución. El proyecto proporciona recursos, incluyendo una versión ligera y modelos preentrenados para facilitar la evaluación y la reproducibilidad.

(www.swebench.com)

Desarrollo Reparación de Código