Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

تقييم نماذج اللغات الكبيرة في ألعاب المغامرات النصية: نهج جديد

2025-08-12

تقترح هذه المقالة طريقة جديدة لتقييم قدرات نماذج اللغات الكبيرة (LLMs) في ألعاب المغامرات النصية. يتضمن النهج تحديد حد لعدد الأدوار ومجموعة من الإنجازات داخل اللعبة لقياس مدى تقدم LLM ضمن هذه القيود. نظرًا لدرجة الحرية العالية والتفرع في ألعاب المغامرات النصية، لم يتم تصميم هذه الطريقة لتوفير درجة أداء مطلقة، بل لتقديم مقارنة نسبية بين LLMs مختلفة. يتم منح LLM سلسلة من أهداف الإنجازات وعدد محدود من الأدوار لتحقيقها؛ تعتمد النتيجة النهائية على عدد الإنجازات المكتملة. حتى LLMs القوية تجد صعوبة في استكشاف جميع الفروع ضمن حد الأدوار، مما يجعل النتيجة تعكس القدرة النسبية بدلاً من مهارة اللعب المطلقة.