اختراق "إنديانا جونز" يسلط الضوء على نقاط الضعف في نماذج اللغات الكبيرة الحالية

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-02-24

طور الباحثون تقنية اختراق جديدة أطلقوا عليها اسم "إنديانا جونز"، والتي تتجاوز بنجاح مرشحات الأمان الخاصة بنماذج اللغات الكبيرة (LLMs). تستخدم هذه الطريقة ثلاثة نماذج LLMs منسقة لاستخراج معلومات ضارة محتملة بشكل متكرر، مثل تعليمات حول كيفية أن تصبح أشرارًا تاريخيين، والتي كان يجب تصفيتها. يأمل الباحثون أن تؤدي نتائجهم إلى نماذج LLMs أكثر أمانًا من خلال تحسين عملية الترشيح، وتقنيات نسيان الآلة، وتحسينات أمنية أخرى.

الذكاء الاصطناعي