اختراق جديد لأنظمة معالجة اللغة الكبيرة يستغل مهارات التقييم الخاصة بالنماذج
2025-01-12
اكتشف الباحثون أسلوبًا جديدًا لاختراق أنظمة معالجة اللغة الكبيرة (LLMs) ، أُطلق عليه اسم "قاضي ليبرت السيئ". تعتمد هذه الطريقة على قدرة LLMs على تحديد المحتوى الضار من خلال مطالبتها بتقييم هذا المحتوى ثم طلب أمثلة، مما يؤدي إلى توليد مخرجات مرتبطة ببرامج ضارة، وأنشطة غير قانونية، ومضايقات، وما إلى ذلك. تم اختبارها على ستة نماذج متطورة في 1440 حالة، وكان متوسط معدل النجاح 71.6٪، ووصل إلى 87.6٪ في بعض الحالات. يوصي الباحثون القائمين على صيانة تطبيقات LLMs باستخدام مرشحات المحتوى للتخفيف من هذه الهجمات.