اختراق أفضل N: هجوم جديد على أنظمة الذكاء الاصطناعي

2024-12-15

طور الباحثون خوارزمية هجوم جديدة للذكاء الاصطناعي تسمى اختراق أفضل N (BoN). هذه الخوارزمية من الصندوق الأسود تعدل بشكل متكرر المطالبات - عن طريق خلط النصوص بشكل عشوائي أو كتابة النصوص بحروف كبيرة، على سبيل المثال - حتى تحصل على استجابة ضارة من نظام الذكاء الاصطناعي. حقق BoN معدلات نجاح عالية بشكل مثير للإعجاب في نماذج اللغات ذات المصدر المغلق مثل GPT-4o (89%) و Claude 3.5 Sonnet (78%)، متجاوزًا الدفاعات الحالية بفعالية. علاوة على ذلك، يمتد BoN بسلاسة إلى نماذج لغة الصور والصوت، مما يبرز ضعف حتى أنظمة الذكاء الاصطناعي المتقدمة للتغيرات في المدخلات التي تبدو غير ضارة. يبرز هذا البحث مخاوف أمنية كبيرة في مجال الذكاء الاصطناعي.