SWE-Bench Pro: Un Benchmark Desafiante para Evaluar LLMs en Ingeniería de Software

2025-09-22
SWE-Bench Pro: Un Benchmark Desafiante para Evaluar LLMs en Ingeniería de Software

SWE-Bench Pro es un nuevo benchmark para evaluar modelos de lenguaje grandes (LLMs) y agentes en tareas de ingeniería de software a largo plazo. Dado un código base y un problema, el modelo debe generar un parche que resuelva el problema descrito. Inspirado en SWE-Bench, utiliza Docker y Modal para evaluaciones reproducibles, lo que requiere que los usuarios configuren un entorno Docker y credenciales Modal para ejecutar el script de evaluación.

Desarrollo