Web Bench: مقياس جديد لتقييم وكلاء تصفح الويب

2025-05-29
Web Bench: مقياس جديد لتقييم وكلاء تصفح الويب

Web Bench هي مجموعة بيانات جديدة لتقييم وكلاء تصفح الويب، تتكون من 5750 مهمة موزعة على 452 موقعًا مختلفًا، مع 2454 مهمة مفتوحة المصدر. يكشف هذا المقياس عن أوجه القصور في وكلاء التصفح الحاليين في التعامل مع المهام التي تتطلب الكتابة المكثفة (مثل تسجيل الدخول، وملء النماذج، وتنزيل الملفات)، مما يبرز أهمية البنية التحتية للمتصفح. وقد حقق Anthropic Sonnet 3.7 CUA أفضل أداء.

الذكاء الاصطناعي وكلاء تصفح الويب