بيئة تعلم فاكتوري: مقياس جديد لأنظمة اللغات الضخمة
تتجاوز نماذج اللغات الكبيرة (LLMs) بسرعة المعايير المرجعية الحالية، مما يتطلب تقييمات مفتوحة جديدة. نقدم بيئة تعلم فاكتوري (FLE)، القائمة على لعبة فاكتوري، والتي تختبر الوكلاء في التخطيط طويل الأجل، وتوليف البرامج، وتحسين الموارد. تقدم FLE تحديات مفتوحة وقابلة للتوسع بشكل كبير - من الأتمتة الأساسية إلى المصانع المعقدة التي تعالج ملايين وحدات الموارد في الثانية. نوفر إعدادين: لعب مختبري مع 24 مهمة منظمة وموارد ثابتة، ولعب مفتوح، وهو مهمة غير محدودة لبناء أكبر مصنع من الصفر على خريطة تم إنشاؤها إجرائيًا. نوضح في كلا الإعدادين أن النماذج لا تزال تفتقر إلى القدرة على التفكير المكاني القوي. في اللعب المختبري، نجد أن نماذج اللغات الكبيرة تُظهر مهارات واعدة على المدى القصير، لكنها غير قادرة على العمل بكفاءة في البيئات المقيدة، مما يعكس قيودًا في تحليل الأخطاء. في اللعب المفتوح، بينما تكتشف نماذج اللغات الكبيرة استراتيجيات أتمتة لتحسين النمو (مثل الحفر الكهربائي)، فإنها تفشل في تحقيق أتمتة معقدة (مثل تصنيع الدوائر الإلكترونية).