Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

2025-05-29
Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

Web Bench es un nuevo conjunto de datos para evaluar agentes de navegación web, que consta de 5750 tareas en 452 sitios web diferentes, con 2454 tareas de código abierto. El punto de referencia revela deficiencias en el manejo de tareas de escritura intensiva (inicio de sesión, llenado de formularios y descarga de archivos) por parte de los agentes existentes, destacando la importancia de la infraestructura del navegador. Anthropic Sonnet 3.7 CUA obtuvo el mejor rendimiento.