ファクトリオ学習環境:LLMのための新たなベンチマーク

2025-03-11

大規模言語モデル(LLM)は既存のベンチマークを急速に凌駕しており、新たなオープンエンドな評価が必要となっています。ファクトリオ学習環境(FLE)は、ゲーム「ファクトリオ」を基盤とし、長期計画、プログラム合成、資源最適化におけるエージェントの能力をテストします。FLEは、基本的な自動化から、1秒間に数百万単位の資源を処理する複雑な工場まで、オープンエンドで指数関数的に拡大する課題を提供します。2つの設定があります。固定リソースを持つ24個の構造化されたタスクからなるラボプレイと、手続き的に生成されたマップ上でゼロから最大の工場を構築するという、無制限のタスクであるオープンプレイです。どちらの設定においても、モデルは依然として強力な空間推論能力を欠いていることが示されました。ラボプレイでは、LLMは短期的なスキルにおいて有望な結果を示しますが、制約のある環境では効果的に動作できず、エラー分析の限界を反映しています。オープンプレイでは、LLMは成長を向上させる自動化戦略(例:電動ドリル)を発見しますが、複雑な自動化(例:電子回路製造)を達成できません。