Web Bench: Novo Benchmark para Agentes de Navegação na Web

2025-05-29
Web Bench: Novo Benchmark para Agentes de Navegação na Web

O Web Bench é um novo conjunto de dados para avaliar agentes de navegação na web, contendo 5.750 tarefas em 452 sites diferentes, com 2.454 tarefas de código aberto. O benchmark revela deficiências no tratamento de tarefas intensivas em escrita (login, preenchimento de formulários e download de arquivos) por agentes existentes, destacando a importância da infraestrutura do navegador. O Anthropic Sonnet 3.7 CUA obteve o melhor desempenho.