Factorio学习环境：大型语言模型的全新挑战

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-03-11

大型语言模型（LLM）在现有基准测试中表现出色，迫切需要新的开放式评估方法。Factorio学习环境（FLE）应运而生，它基于游戏《Factorio》，测试智能体在长期规划、程序合成和资源优化方面的能力。FLE提供开放式且指数级扩展的挑战，从基本的自动化到每秒处理数百万资源单元的复杂工厂。它包含两种设置：24个具有固定资源的结构化任务的实验室游戏，以及在程序生成的无限地图上从零开始建造最大工厂的开放式游戏。实验结果表明，模型仍然缺乏强大的空间推理能力。在实验室游戏中，LLM表现出良好的短期技能，但在受限环境中却无法有效运行，反映了其错误分析能力的局限性。在开放式游戏中，LLM虽然发现了能够提高增长速度的自动化策略（例如电动钻探），但未能实现复杂的自动化（例如电子电路制造）。