Web Bench: مقياس جديد لتقييم وكلاء تصفح الويب

2025-05-29
Web Bench: مقياس جديد لتقييم وكلاء تصفح الويب

Web Bench هي مجموعة بيانات جديدة لتقييم وكلاء تصفح الويب، تتكون من 5750 مهمة موزعة على 452 موقعًا مختلفًا، مع 2454 مهمة مفتوحة المصدر. يكشف هذا المقياس عن أوجه القصور في وكلاء التصفح الحاليين في التعامل مع المهام التي تتطلب الكتابة المكثفة (مثل تسجيل الدخول، وملء النماذج، وتنزيل الملفات)، مما يبرز أهمية البنية التحتية للمتصفح. وقد حقق Anthropic Sonnet 3.7 CUA أفضل أداء.

اقرأ المزيد
الذكاء الاصطناعي وكلاء تصفح الويب

وكيل متصفح Skyvern 2.0: تحقيق أقصى درجات التقييم

2025-01-17
وكيل متصفح Skyvern 2.0: تحقيق أقصى درجات التقييم

أصدر فريق Skyvern إصدار Skyvern 2.0، وهو مُنشئ وكلاء متصفح مفتوح المصدر بدون كود. بفضل تطبيق حلقة وكيل مُخطط-فاعل-مُصدق، حقق Skyvern 2.0 درجة متقدمة بلغت 85.85% في مقياس WebVoyager. تقسّم هذه الهندسة التعليمات المعقدة إلى مهام أصغر وأكثر سهولة في الإدارة، وتضمن مرحلة التحقق إتمام العملية بنجاح. يستطيع Skyvern 2.0 معالجة طلبات معقدة مثل "انتقل إلى موقع أمازون وأضف هاتف iPhone 16، وغطاء، وحامي شاشة إلى العربة". كما نشر الفريق نتائج التقييم الكاملة علنًا، مُبرهنًا على التزامه بالمصدر المفتوح.

اقرأ المزيد