أزمة الموثوقية في معايير قياس أداء وكلاء الذكاء الاصطناعي

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-07-11

تعاني معايير قياس أداء وكلاء الذكاء الاصطناعي الحالية من أزمة موثوقية كبيرة. تحتوي العديد من هذه المعايير على ثغرات قابلة للاستغلال، مما يؤدي إلى المبالغة في تقدير قدرات الوكلاء أو التقليل منها بشكل كبير. على سبيل المثال، تُشير WebArena إلى الإجابات الخاطئة على أنها صحيحة، بينما تعاني معايير أخرى من محاكيات معيبة أو أساليب تقييم غير قوية. يقترح الباحثون قائمة مراجعة مكونة من 43 بندًا لمعايير قياس أداء وكلاء الذكاء الاصطناعي (ABC) لتحسين موثوقية المعايير ولتقييم 10 معايير شائعة، حيث وجدوا عيوبًا كبيرة في معظمها. تهدف هذه القائمة إلى مساعدة مطوري معايير القياس ومطوري نماذج الذكاء الاصطناعي في بناء أساليب تقييم أكثر موثوقية، مما يسمح بتقييم أدق لقدرات وكلاء الذكاء الاصطناعي.

الذكاء الاصطناعي