Web Bench:Webブラウジングエージェント評価のための新しいベンチマーク
2025-05-29

Web Benchは、452の異なるウェブサイト上の5750個のタスクからなる、Webブラウジングエージェントを評価するための新しいデータセットです。2454個のタスクはオープンソース化されています。このベンチマークは、既存のエージェントが、書き込み集約型タスク(ログイン、フォーム入力、ファイルダウンロードなど)を処理する際の欠点を明らかにし、ブラウザインフラストラクチャの重要性を強調しています。Anthropic Sonnet 3.7 CUAが最高の性能を示しました。