تقييم نماذج اللغات الكبيرة في ألعاب المغامرات النصية: نهج جديد
2025-08-12
تقترح هذه المقالة طريقة جديدة لتقييم قدرات نماذج اللغات الكبيرة (LLMs) في ألعاب المغامرات النصية. يتضمن النهج تحديد حد لعدد الأدوار ومجموعة من الإنجازات داخل اللعبة لقياس مدى تقدم LLM ضمن هذه القيود. نظرًا لدرجة الحرية العالية والتفرع في ألعاب المغامرات النصية، لم يتم تصميم هذه الطريقة لتوفير درجة أداء مطلقة، بل لتقديم مقارنة نسبية بين LLMs مختلفة. يتم منح LLM سلسلة من أهداف الإنجازات وعدد محدود من الأدوار لتحقيقها؛ تعتمد النتيجة النهائية على عدد الإنجازات المكتملة. حتى LLMs القوية تجد صعوبة في استكشاف جميع الفروع ضمن حد الأدوار، مما يجعل النتيجة تعكس القدرة النسبية بدلاً من مهارة اللعب المطلقة.
الذكاء الاصطناعي
ألعاب المغامرات النصية