لعبة إقصاء نماذج اللغات الكبيرة: التفكير الاجتماعي، والاستراتيجية، والخداع
2025-04-07
ابتكر الباحثون معيارًا مرجعيًا متعدد اللاعبين لـ "لعبة الإقصاء" لتقييم نماذج اللغات الكبيرة (LLMs) في مجال التفكير الاجتماعي، والاستراتيجية، والخداع. تتنافس ثمانية نماذج LLMs، وتشارك في محادثات عامة وخاصة، وتشكل تحالفات، وتصوت لإقصاء الخصوم حتى يتبقى اثنان فقط. ثم يقرر هيئة محلفين من اللاعبين الذين تم إقصاؤهم الفائز. من خلال تحليل سجلات المحادثات، وأنماط التصويت، والتصنيفات، يتضح كيف توازن نماذج LLMs بين المعرفة المشتركة والنية الخفية، من خلال تكوين تحالفات أو خيانتها بشكل استراتيجي. يتجاوز المعيار المرجعي المحادثات البسيطة، مما يجبر النماذج على التنقل في ديناميكيات عامة مقابل ديناميكيات خاصة، والتصويت الاستراتيجي، وإقناع هيئة المحلفين. برز نموذج GPT-4.5 Preview كأفضل أداء.
الذكاء الاصطناعي
متعدد الوكلاء