Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

اختراق جديد لأنظمة معالجة اللغة الكبيرة يستغل مهارات التقييم الخاصة بالنماذج

2025-01-12

اكتشف الباحثون أسلوبًا جديدًا لاختراق أنظمة معالجة اللغة الكبيرة (LLMs) ، أُطلق عليه اسم "قاضي ليبرت السيئ". تعتمد هذه الطريقة على قدرة LLMs على تحديد المحتوى الضار من خلال مطالبتها بتقييم هذا المحتوى ثم طلب أمثلة، مما يؤدي إلى توليد مخرجات مرتبطة ببرامج ضارة، وأنشطة غير قانونية، ومضايقات، وما إلى ذلك. تم اختبارها على ستة نماذج متطورة في 1440 حالة، وكان متوسط معدل النجاح 71.6٪، ووصل إلى 87.6٪ في بعض الحالات. يوصي الباحثون القائمين على صيانة تطبيقات LLMs باستخدام مرشحات المحتوى للتخفيف من هذه الهجمات.

(www.scworld.com)

التكنولوجيا أمن LLMs اختراق