Web Bench : Une nouvelle référence pour l’évaluation des agents de navigation web

2025-05-29
Web Bench : Une nouvelle référence pour l’évaluation des agents de navigation web

Web Bench est un nouveau jeu de données pour évaluer les agents de navigation web, composé de 5 750 tâches sur 452 sites web différents, dont 2 454 tâches sont en open source. Ce benchmark révèle les lacunes des agents existants dans la gestion des tâches d’écriture intensive (connexion, remplissage de formulaires, téléchargement de fichiers), soulignant l’importance de l’infrastructure du navigateur. Anthropic Sonnet 3.7 CUA a obtenu les meilleures performances.