التحكم في شخصيات الذكاء الاصطناعي: تحديد "متجهات الشخصية" لمنع الذكاء الاصطناعي "الخبيث"
2025-08-03

اكتشف باحثون في شركة أنثروبيك أن تغييرات شخصيات نماذج الذكاء الاصطناعي ليست عشوائية؛ بل يتم التحكم فيها بواسطة "متجهات شخصية" محددة داخل الشبكة العصبية للنموذج. هذه المتجهات تشبه المناطق في الدماغ التي تتحكم في المزاج والموقف. من خلال تحديد هذه المتجهات والتحكم فيها، يمكن للباحثين مراقبة، والتخفيف، وحتى منع الشخصيات غير المرغوب فيها مثل "الخبيث"، "المجاملة"، أو "الهلوسة". هذه التقنية تعمل على تحسين تدريب نماذج الذكاء الاصطناعي، وتحديد بيانات التدريب التي قد تسبب مشاكل، وضمان التوافق مع القيم الإنسانية.
الذكاء الاصطناعي
متجهات الشخصية