SWE-Bench Pro: Un Benchmark Desafiante para Evaluar LLMs en Ingeniería de Software

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

SWE-Bench Pro: Un Benchmark Desafiante para Evaluar LLMs en Ingeniería de Software

2025-09-22

SWE-Bench Pro es un nuevo benchmark para evaluar modelos de lenguaje grandes (LLMs) y agentes en tareas de ingeniería de software a largo plazo. Dado un código base y un problema, el modelo debe generar un parche que resuelva el problema descrito. Inspirado en SWE-Bench, utiliza Docker y Modal para evaluaciones reproducibles, lo que requiere que los usuarios configuren un entorno Docker y credenciales Modal para ejecutar el script de evaluación.

(github.com)

Desarrollo

Alibaba presenta Qwen3-Omni: Un modelo fundamental multimodal nativo de extremo a extremo

¡Vuelve el soporte nativo para fondos de pantalla de vídeo en Windows 11!