Factorio学习环境:大型语言模型的全新挑战

2025-03-11

大型语言模型(LLM)在现有基准测试中表现出色,迫切需要新的开放式评估方法。Factorio学习环境(FLE)应运而生,它基于游戏《Factorio》,测试智能体在长期规划、程序合成和资源优化方面的能力。FLE提供开放式且指数级扩展的挑战,从基本的自动化到每秒处理数百万资源单元的复杂工厂。它包含两种设置:24个具有固定资源的结构化任务的实验室游戏,以及在程序生成的无限地图上从零开始建造最大工厂的开放式游戏。实验结果表明,模型仍然缺乏强大的空间推理能力。在实验室游戏中,LLM表现出良好的短期技能,但在受限环境中却无法有效运行,反映了其错误分析能力的局限性。在开放式游戏中,LLM虽然发现了能够提高增长速度的自动化策略(例如电动钻探),但未能实现复杂的自动化(例如电子电路制造)。

AI