تقييم خطر اختراق وكلاء الذكاء الاصطناعي: تُظهر الاختبارات التنافسية نقاط الضعف

2025-03-16
تقييم خطر اختراق وكلاء الذكاء الاصطناعي: تُظهر الاختبارات التنافسية نقاط الضعف

قام معهد سلامة الذكاء الاصطناعي الأمريكي (US AISI) بتقييم خطر اختراق وكلاء الذكاء الاصطناعي باستخدام إطار عمل AgentDojo، واختبار نموذج Claude 3.5 Sonnet من Anthropic. تبرز النتائج الرئيسية الحاجة إلى تحسين مستمر لأطر العمل الخاصة بالتقييم، والتقييمات التكيفية لمراعاة أساليب الهجوم المتطورة، وأهمية تحليل معدلات نجاح الهجوم الخاصة بالمهام. أدخلت الدراسة سيناريوهات هجوم جديدة، مثل تنفيذ التعليمات البرمجية عن بُعد، واستخراج البيانات من قواعد البيانات، والتصيد الاحتيالي الآلي، مُظهرة فعاليتها في بيئات مختلفة. تُبرز هذه الأبحاث الحاجة إلى تحسينات متكررة في أطر عمل تقييم أمن الذكاء الاصطناعي لمواجهة التهديد المتطور لاختراق وكلاء الذكاء الاصطناعي.

الذكاء الاصطناعي اختراق الوكيل