Web Bench: Ein neuer Benchmark für die Bewertung von Web-Browsing-Agenten

2025-05-29
Web Bench: Ein neuer Benchmark für die Bewertung von Web-Browsing-Agenten

Web Bench ist ein neuer Datensatz zur Bewertung von Web-Browsing-Agenten, der aus 5750 Aufgaben auf 452 verschiedenen Websites besteht, von denen 2454 Open Source sind. Der Benchmark zeigt Schwächen bestehender Agenten bei schreibintensiven Aufgaben (z. B. Anmelden, Formulare ausfüllen, Dateien herunterladen) auf und unterstreicht die Bedeutung der Browser-Infrastruktur. Anthropic Sonnet 3.7 CUA erzielte die beste Leistung.

Mehr lesen

Skyvern Browser Agent 2.0: State-of-the-Art in Auswertungen erreicht

2025-01-17
Skyvern Browser Agent 2.0: State-of-the-Art in Auswertungen erreicht

Das Skyvern-Team hat Skyvern 2.0 veröffentlicht, einen Open-Source-Baukasten für Browser-Agenten ohne Code. Durch die Implementierung einer Planer-Actor-Validator-Agentenschleife erzielte Skyvern 2.0 im WebVoyager-Benchmark einen Spitzenergebnis von 85,85 %. Diese Architektur zerlegt komplexe Anweisungen in kleinere, überschaubare Aufgaben, und eine Validierungsphase stellt den erfolgreichen Abschluss sicher. Skyvern 2.0 kann komplexe Anweisungen wie "Gehe zu Amazon und füge ein iPhone 16, eine Hülle und einen Displayschutz zum Warenkorb hinzu" verarbeiten. Das Team hat auch die vollständigen Auswertungsergebnisse öffentlich zugänglich gemacht, was sein Engagement für Open Source unterstreicht.

Mehr lesen
Entwicklung