Factorio Lernumgebung: Ein neuer Benchmark für LLMs

2025-03-11

Große Sprachmodelle (LLMs) sättigen schnell bestehende Benchmarks und erfordern neue, offene Evaluierungen. Wir stellen die Factorio Lernumgebung (FLE) vor, die auf dem Spiel Factorio basiert und Agenten in Langzeitplanung, Programmsynthese und Ressourcenoptimierung testet. FLE bietet offene und exponentiell skalierende Herausforderungen – von grundlegender Automatisierung bis hin zu komplexen Fabriken, die Millionen von Ressourceneinheiten pro Sekunde verarbeiten. Wir bieten zwei Einstellungen an: Lab-Spiele mit 24 strukturierten Aufgaben und festen Ressourcen, und Open-Play, die unbegrenzte Aufgabe, die größte Fabrik von Grund auf neu auf einer prozedural generierten Karte zu bauen. Wir zeigen in beiden Einstellungen, dass Modellen immer noch starkes räumliches Denken fehlt. Im Lab-Spiel zeigen LLMs vielversprechende Fähigkeiten auf kurze Sicht, können aber in eingeschränkten Umgebungen nicht effektiv arbeiten, was die Grenzen der Fehleranalyse widerspiegelt. Im Open-Play entdecken LLMs zwar Automatisierungsstrategien, die das Wachstum verbessern (z. B. elektrisches Bohren), scheitern aber an komplexer Automatisierung (z. B. Herstellung von elektronischen Schaltungen).

KI