Web Bench: 웹 브라우징 에이전트 평가를 위한 새로운 벤치마크

2025-05-29
Web Bench: 웹 브라우징 에이전트 평가를 위한 새로운 벤치마크

Web Bench는 452개의 서로 다른 웹사이트에서 5750개의 작업으로 구성된 웹 브라우징 에이전트를 평가하기 위한 새로운 데이터 세트입니다. 2454개의 작업은 오픈 소스로 제공됩니다. 이 벤치마크는 기존 에이전트가 쓰기 집약적인 작업(로그인, 양식 작성, 파일 다운로드 등)을 처리하는 데 어려움을 겪는다는 것을 보여주며, 브라우저 인프라의 중요성을 강조합니다. Anthropic Sonnet 3.7 CUA가 최고의 성능을 보였습니다.

더 보기

Skyvern 브라우저 에이전트 2.0: 최첨단 평가 달성

2025-01-17
Skyvern 브라우저 에이전트 2.0: 최첨단 평가 달성

Skyvern팀은 오픈소스 노코드 브라우저 에이전트 빌더인 Skyvern 2.0을 출시했습니다. 플래너-액터-밸리데이터 에이전트 루프를 구현하여 Skyvern 2.0은 WebVoyager 벤치마크에서 최첨단 85.85% 점수를 달성했습니다. 이 아키텍처는 복잡한 지시를 더 작고 관리하기 쉬운 목표로 분해하고, 검증 단계를 통해 성공적인 실행을 보장합니다. "Amazon에 접속하여 iPhone 16, 케이스, 화면 보호 필름을 장바구니에 추가하세요"와 같은 복잡한 프롬프트를 처리할 수 있습니다. 팀은 평가 결과 전체를 공개하여 오픈소스에 대한 헌신을 보여주었습니다.

더 보기
개발