Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

2025-05-29
Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

Web Bench es un nuevo conjunto de datos para evaluar agentes de navegación web, que consta de 5750 tareas en 452 sitios web diferentes, con 2454 tareas de código abierto. El punto de referencia revela deficiencias en el manejo de tareas de escritura intensiva (inicio de sesión, llenado de formularios y descarga de archivos) por parte de los agentes existentes, destacando la importancia de la infraestructura del navegador. Anthropic Sonnet 3.7 CUA obtuvo el mejor rendimiento.

Leer más

Skyvern Browser Agent 2.0: Alcanzando el Estado del Arte en Evaluaciones

2025-01-17
Skyvern Browser Agent 2.0: Alcanzando el Estado del Arte en Evaluaciones

El equipo de Skyvern lanzó Skyvern 2.0, un constructor de agentes de navegador de código abierto sin código. Con la implementación de un bucle de agente planificador-actor-validador, Skyvern 2.0 logró una puntuación de vanguardia del 85,85% en el benchmark WebVoyager. Esta arquitectura divide las instrucciones complejas en tareas más pequeñas y manejables, y una etapa de validación asegura la finalización exitosa. Skyvern 2.0 puede manejar indicaciones complejas como "Navega a Amazon y agrega un iPhone 16, una funda y un protector de pantalla al carrito". El equipo también publicó públicamente los resultados completos de la evaluación, demostrando su compromiso con el código abierto.

Leer más