Web Bench:全新网页浏览代理评估基准数据集
2025-05-29

Web Bench是一个评估网页浏览代理的新数据集,包含来自452个不同网站的5750个任务,其中2454个任务已开源。该基准测试揭示了现有代理在处理写入密集型任务(如登录、填写表单和下载文件)方面的不足,并强调了浏览器基础设施的重要性。Anthropic Sonnet 3.7 CUA在测试中表现最佳。
AI
网页浏览代理