تصنيف السلامة الخفيف باستخدام نماذج اللغة المُقلّمة

2024-12-19

يُقدّم الباحثون تقنية جديدة خفيفة الوزن لتصنيف سلامة المحتوى وحقن المُحفّزات في نماذج اللغات الكبيرة (LLMs) ، وهي تصنيف مُعزّز بالطبقات (LEC). يُدرّب LEC مُصنّفًا مُبسّطًا لـالانحدار اللوجستي المُعاقَب (PLR) على الحالة الخفية للطبقة المُحوّلة الوسيطة المثالية لـ LLM. بدمج كفاءة PLR مع فهم اللغة المُتطوّر لـ LLMs ، يتفوّق LEC على GPT-4o والنماذج المُتخصّصة. تُثبت النماذج العامة الصغيرة مثل Qwen 2.5 والعمارات مثل DeBERTa v3 أنها مُستخرجين قويين للميزات ، حيث يتم التدريب بكفاءة مع أقل من 100 مثال عالي الجودة. من المهم أن تتفوّق الطبقات المُحوّلة الوسيطة عادةً على الطبقة النهائية. يمكن أن يُصنّف LLM عام واحد سلامة المحتوى ، ويكتشف حقن المُحفّزات ، ويُولّد المخرجات ، أو يمكن تقليم LLMs أصغر إلى طبقتها الوسيطة المثالية لاستخراج الميزات. تشير النتائج المُتناسقة عبر العمارة المختلفة إلى أن استخراج الميزات القوي هو أمر مُتّصل بالعديد من LLMs.