مصنفات دستورية من أنثروبيك: دفاع جديد ضد اختراقات الذكاء الاصطناعي
2025-02-03
يكشف فريق أبحاث الضمانات في أنثروبيك عن المصنفات الدستورية، وهي دفاع جديد ضد اختراقات الذكاء الاصطناعي. هذا النظام، المدرب على بيانات اصطناعية، يقوم بتصفية المخرجات الضارة بفعالية مع تقليل الإيجابيات الخاطئة. وقد صمد النموذج الأولي لآلاف الساعات من اختبارات الفريق الأحمر البشري، مما قلل بشكل كبير من معدلات نجاح الاختراقات، على الرغم من أنه عانى في البداية من معدلات رفض عالية وتكاليف حسابية مرتفعة. تحافظ النسخة المُحدثة على المتانة مع زيادة طفيفة فقط في معدل الرفض وتكلفة حسابية معتدلة. وتدعو نسخة تجريبية حية مؤقتة خبراء الأمن لاختبار قدرتها على الصمود، مما يمهد الطريق لنشر أكثر أمانًا لأنماط الذكاء الاصطناعي الأكثر قوة.