اختراق "إنديانا جونز" يسلط الضوء على نقاط الضعف في نماذج اللغات الكبيرة الحالية
2025-02-24
طور الباحثون تقنية اختراق جديدة أطلقوا عليها اسم "إنديانا جونز"، والتي تتجاوز بنجاح مرشحات الأمان الخاصة بنماذج اللغات الكبيرة (LLMs). تستخدم هذه الطريقة ثلاثة نماذج LLMs منسقة لاستخراج معلومات ضارة محتملة بشكل متكرر، مثل تعليمات حول كيفية أن تصبح أشرارًا تاريخيين، والتي كان يجب تصفيتها. يأمل الباحثون أن تؤدي نتائجهم إلى نماذج LLMs أكثر أمانًا من خلال تحسين عملية الترشيح، وتقنيات نسيان الآلة، وتحسينات أمنية أخرى.
الذكاء الاصطناعي