هندسة التنشيط: التلاعب بسمات الشخصية في نماذج اللغات الكبيرة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2024-12-31

تتناول ورقة بحثية على موقع arXiv طريقة جديدة لتحديد سمات الشخصية في نماذج اللغات الكبيرة (LLMs) والتحكم بها باستخدام "هندسة التنشيط". مستوحاة من أبحاث سابقة حول رفض نماذج اللغات الكبيرة وتوجيهها، يقترح الباحثون تقنية لضبط اتجاهات التنشيط المرتبطة بسمات الشخصية، مما يسمح بضبط دقيق ديناميكي لشخصية LLM. يساهم هذا العمل في فهم أفضل لقدرة نماذج اللغات الكبيرة على التفسير، وفي الوقت نفسه يثير اعتبارات أخلاقية بالغة الأهمية.