Web Bench : Une nouvelle référence pour l’évaluation des agents de navigation web

2025-05-29
Web Bench : Une nouvelle référence pour l’évaluation des agents de navigation web

Web Bench est un nouveau jeu de données pour évaluer les agents de navigation web, composé de 5 750 tâches sur 452 sites web différents, dont 2 454 tâches sont en open source. Ce benchmark révèle les lacunes des agents existants dans la gestion des tâches d’écriture intensive (connexion, remplissage de formulaires, téléchargement de fichiers), soulignant l’importance de l’infrastructure du navigateur. Anthropic Sonnet 3.7 CUA a obtenu les meilleures performances.

Lire plus

Skyvern Browser Agent 2.0 : Atteindre l’état de l’art en matière d’évaluations

2025-01-17
Skyvern Browser Agent 2.0 : Atteindre l’état de l’art en matière d’évaluations

L’équipe Skyvern a lancé Skyvern 2.0, un générateur d’agent de navigateur open source sans code. Grâce à l’implémentation d’une boucle d’agent planificateur-acteur-validateur, Skyvern 2.0 a obtenu un score de pointe de 85,85 % au benchmark WebVoyager. Cette architecture décompose les instructions complexes en tâches plus petites et gérables, et une phase de validation garantit la réussite de l’exécution. Skyvern 2.0 est capable de gérer des instructions complexes telles que : « Accéder à Amazon et ajouter un iPhone 16, une coque et un protecteur d’écran au panier ». L’équipe a également publié publiquement les résultats complets de l’évaluation, démontrant ainsi son engagement envers l’open source.

Lire plus