Web Bench: 웹 브라우징 에이전트 평가를 위한 새로운 벤치마크

2025-05-29
Web Bench: 웹 브라우징 에이전트 평가를 위한 새로운 벤치마크

Web Bench는 452개의 서로 다른 웹사이트에서 5750개의 작업으로 구성된 웹 브라우징 에이전트를 평가하기 위한 새로운 데이터 세트입니다. 2454개의 작업은 오픈 소스로 제공됩니다. 이 벤치마크는 기존 에이전트가 쓰기 집약적인 작업(로그인, 양식 작성, 파일 다운로드 등)을 처리하는 데 어려움을 겪는다는 것을 보여주며, 브라우저 인프라의 중요성을 강조합니다. Anthropic Sonnet 3.7 CUA가 최고의 성능을 보였습니다.