Web Bench:Webブラウジングエージェント評価のための新しいベンチマーク

2025-05-29
Web Bench:Webブラウジングエージェント評価のための新しいベンチマーク

Web Benchは、452の異なるウェブサイト上の5750個のタスクからなる、Webブラウジングエージェントを評価するための新しいデータセットです。2454個のタスクはオープンソース化されています。このベンチマークは、既存のエージェントが、書き込み集約型タスク(ログイン、フォーム入力、ファイルダウンロードなど)を処理する際の欠点を明らかにし、ブラウザインフラストラクチャの重要性を強調しています。Anthropic Sonnet 3.7 CUAが最高の性能を示しました。

続きを読む

Skyvernブラウザエージェント2.0:最先端の評価を実現

2025-01-17
Skyvernブラウザエージェント2.0:最先端の評価を実現

Skyvernチームは、オープンソースのノーコードブラウザエージェントビルダーであるSkyvern 2.0をリリースしました。プランナー・アクタ・バリデータエージェントループを実装することで、Skyvern 2.0はWebVoyagerベンチマークで最先端の85.85%というスコアを達成しました。このアーキテクチャは、複雑な指示をより小さく管理しやすい目標に分解し、検証フェーズによって成功した実行を保証します。「Amazonにアクセスして、iPhone 16、ケース、画面保護フィルムをカートに追加する」といった複雑なプロンプトを処理できます。チームは、評価結果全体を公開することで、オープンソースへのコミットメントを示しました。

続きを読む
開発