Web Bench: Novo Benchmark para Agentes de Navegação na Web

2025-05-29
Web Bench: Novo Benchmark para Agentes de Navegação na Web

O Web Bench é um novo conjunto de dados para avaliar agentes de navegação na web, contendo 5.750 tarefas em 452 sites diferentes, com 2.454 tarefas de código aberto. O benchmark revela deficiências no tratamento de tarefas intensivas em escrita (login, preenchimento de formulários e download de arquivos) por agentes existentes, destacando a importância da infraestrutura do navegador. O Anthropic Sonnet 3.7 CUA obteve o melhor desempenho.

Leia mais

Skyvern Browser Agent 2.0: Alcançando o Estado da Arte em Avaliações

2025-01-17
Skyvern Browser Agent 2.0: Alcançando o Estado da Arte em Avaliações

A equipe Skyvern lançou o Skyvern 2.0, um construtor de agente de navegador de código aberto sem código. Com a implementação de um loop de agente planejador-executor-validador, o Skyvern 2.0 atingiu uma pontuação de ponta de 85,85% no benchmark WebVoyager. Esta arquitetura divide instruções complexas em tarefas menores e gerenciáveis, e uma etapa de validação garante a conclusão bem-sucedida. O Skyvern 2.0 consegue lidar com prompts complexos como "Navegue até a Amazon e adicione um iPhone 16, uma capa e um protetor de tela ao carrinho". A equipe também divulgou publicamente os resultados completos da avaliação, demonstrando seu compromisso com o código aberto.

Leia mais
Desenvolvimento automação de navegador