Ambiente de Aprendizagem Factorio: Um Novo Padrão para LLMs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-03-11

Os Grandes Modelos de Linguagem (LLMs) estão rapidamente saturando os benchmarks existentes, exigindo novas avaliações abertas. Apresentamos o Ambiente de Aprendizagem Factorio (FLE), baseado no jogo Factorio, que testa agentes em planejamento de longo prazo, síntese de programas e otimização de recursos. O FLE oferece desafios abertos e com escalonamento exponencial - da automação básica a fábricas complexas que processam milhões de unidades de recursos por segundo. Fornecemos duas configurações: um jogo de laboratório com 24 tarefas estruturadas com recursos fixos e um jogo aberto com a tarefa ilimitada de construir a maior fábrica do zero em um mapa gerado proceduralmente. Demonstramos em ambas as configurações que os modelos ainda carecem de raciocínio espacial forte. No jogo de laboratório, descobrimos que os LLMs exibem habilidades promissoras de curto prazo, mas não conseguem operar de forma eficaz em ambientes restritos, refletindo limitações na análise de erros. No jogo aberto, embora os LLMs descubram estratégias de automação que melhoram o crescimento (por exemplo, perfuração elétrica), eles falham em alcançar a automação complexa (por exemplo, fabricação de circuitos eletrônicos).