هندسة التنشيط: التلاعب بسمات الشخصية في نماذج اللغات الكبيرة
2024-12-31
تتناول ورقة بحثية على موقع arXiv طريقة جديدة لتحديد سمات الشخصية في نماذج اللغات الكبيرة (LLMs) والتحكم بها باستخدام "هندسة التنشيط". مستوحاة من أبحاث سابقة حول رفض نماذج اللغات الكبيرة وتوجيهها، يقترح الباحثون تقنية لضبط اتجاهات التنشيط المرتبطة بسمات الشخصية، مما يسمح بضبط دقيق ديناميكي لشخصية LLM. يساهم هذا العمل في فهم أفضل لقدرة نماذج اللغات الكبيرة على التفسير، وفي الوقت نفسه يثير اعتبارات أخلاقية بالغة الأهمية.