حقن موجه عالمي يتجاوز ضوابط الأمان في جميع نماذج اللغات الكبيرة الرئيسية
2025-04-25

طور باحثون في HiddenLayer تقنية جديدة لحقن الموجه، أطلقوا عليها اسم "Policy Puppetry"، والتي تتجاوز بنجاح التسلسلات الهرمية للتعليمات وضوابط الأمان عبر جميع نماذج الذكاء الاصطناعي الرئيسية، بما في ذلك تلك من OpenAI، وGoogle، وMicrosoft، وAnthropic، وMeta، وDeepSeek، وQwen، وMistral. تجمع هذه التقنية بين تقنية سياسة تم تطويرها داخليًا وتقليد الأدوار، وتنتج مخرجات تنتهك سياسات أمان الذكاء الاصطناعي المتعلقة بتهديدات CBRN، والعنف الجماعي، وإيذاء النفس، وتسريب موجه النظام. قدرتها على الانتقال بين بنى النماذج واستراتيجيات الاستدلال تبرز العيوب الجوهرية في الاعتماد فقط على RLHF لمحاذاة النموذج وتؤكد الحاجة إلى اختبارات أمان استباقية، خاصة بالنسبة للمنظمات التي تنشر نماذج اللغات الكبيرة في بيئات حساسة.
الذكاء الاصطناعي
حقن الموجه