Web Bench: Ein neuer Benchmark für die Bewertung von Web-Browsing-Agenten

2025-05-29
Web Bench: Ein neuer Benchmark für die Bewertung von Web-Browsing-Agenten

Web Bench ist ein neuer Datensatz zur Bewertung von Web-Browsing-Agenten, der aus 5750 Aufgaben auf 452 verschiedenen Websites besteht, von denen 2454 Open Source sind. Der Benchmark zeigt Schwächen bestehender Agenten bei schreibintensiven Aufgaben (z. B. Anmelden, Formulare ausfüllen, Dateien herunterladen) auf und unterstreicht die Bedeutung der Browser-Infrastruktur. Anthropic Sonnet 3.7 CUA erzielte die beste Leistung.