لعبة إقصاء نماذج اللغات الكبيرة: التفكير الاجتماعي، والاستراتيجية، والخداع

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-07

ابتكر الباحثون معيارًا مرجعيًا متعدد اللاعبين لـ "لعبة الإقصاء" لتقييم نماذج اللغات الكبيرة (LLMs) في مجال التفكير الاجتماعي، والاستراتيجية، والخداع. تتنافس ثمانية نماذج LLMs، وتشارك في محادثات عامة وخاصة، وتشكل تحالفات، وتصوت لإقصاء الخصوم حتى يتبقى اثنان فقط. ثم يقرر هيئة محلفين من اللاعبين الذين تم إقصاؤهم الفائز. من خلال تحليل سجلات المحادثات، وأنماط التصويت، والتصنيفات، يتضح كيف توازن نماذج LLMs بين المعرفة المشتركة والنية الخفية، من خلال تكوين تحالفات أو خيانتها بشكل استراتيجي. يتجاوز المعيار المرجعي المحادثات البسيطة، مما يجبر النماذج على التنقل في ديناميكيات عامة مقابل ديناميكيات خاصة، والتصويت الاستراتيجي، وإقناع هيئة المحلفين. برز نموذج GPT-4.5 Preview كأفضل أداء.