Environnement d'apprentissage Factorio : une nouvelle référence pour les LLM
Les grands modèles de langage (LLM) saturent rapidement les benchmarks existants, nécessitant de nouvelles évaluations ouvertes. Nous présentons l'environnement d'apprentissage Factorio (FLE), basé sur le jeu Factorio, qui teste les agents en matière de planification à long terme, de synthèse de programmes et d'optimisation des ressources. Le FLE propose des défis ouverts et à l'échelle exponentielle, de l'automatisation de base aux usines complexes traitant des millions d'unités de ressources par seconde. Nous proposons deux configurations : un jeu en laboratoire avec 24 tâches structurées et des ressources fixes, et un jeu ouvert, la tâche illimitée de construire la plus grande usine à partir de zéro sur une carte générée procéduralement. Nous démontrons dans les deux configurations que les modèles manquent encore de raisonnement spatial solide. Dans le jeu en laboratoire, nous constatons que les LLM présentent des compétences prometteuses à court terme, mais ne peuvent pas fonctionner efficacement dans des environnements contraints, ce qui reflète les limites de l'analyse des erreurs. Dans le jeu ouvert, bien que les LLM découvrent des stratégies d'automatisation qui améliorent la croissance (par exemple, le forage électrique), ils ne parviennent pas à réaliser une automatisation complexe (par exemple, la fabrication de circuits électroniques).