تقييم خطر اختراق وكلاء الذكاء الاصطناعي: تُظهر الاختبارات التنافسية نقاط الضعف

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-03-16

قام معهد سلامة الذكاء الاصطناعي الأمريكي (US AISI) بتقييم خطر اختراق وكلاء الذكاء الاصطناعي باستخدام إطار عمل AgentDojo، واختبار نموذج Claude 3.5 Sonnet من Anthropic. تبرز النتائج الرئيسية الحاجة إلى تحسين مستمر لأطر العمل الخاصة بالتقييم، والتقييمات التكيفية لمراعاة أساليب الهجوم المتطورة، وأهمية تحليل معدلات نجاح الهجوم الخاصة بالمهام. أدخلت الدراسة سيناريوهات هجوم جديدة، مثل تنفيذ التعليمات البرمجية عن بُعد، واستخراج البيانات من قواعد البيانات، والتصيد الاحتيالي الآلي، مُظهرة فعاليتها في بيئات مختلفة. تُبرز هذه الأبحاث الحاجة إلى تحسينات متكررة في أطر عمل تقييم أمن الذكاء الاصطناعي لمواجهة التهديد المتطور لاختراق وكلاء الذكاء الاصطناعي.