Entorno de Aprendizaje Factorio: Un Nuevo Estándar para LLM
Los Grandes Modelos de Lenguaje (LLM) están rápidamente saturando los puntos de referencia existentes, lo que requiere nuevas evaluaciones abiertas. Presentamos el Entorno de Aprendizaje Factorio (FLE), basado en el juego Factorio, que prueba a los agentes en planificación a largo plazo, síntesis de programas y optimización de recursos. El FLE ofrece desafíos abiertos y con escalado exponencial, desde la automatización básica hasta fábricas complejas que procesan millones de unidades de recursos por segundo. Ofrecemos dos configuraciones: un juego de laboratorio con 24 tareas estructuradas con recursos fijos y un juego abierto con la tarea ilimitada de construir la fábrica más grande desde cero en un mapa generado por procedimientos. Demostramos en ambas configuraciones que los modelos aún carecen de un razonamiento espacial sólido. En el juego de laboratorio, encontramos que los LLM exhiben habilidades prometedoras a corto plazo, pero no pueden operar eficazmente en entornos restringidos, lo que refleja las limitaciones en el análisis de errores. En el juego abierto, si bien los LLM descubren estrategias de automatización que mejoran el crecimiento (por ejemplo, perforación eléctrica), no logran alcanzar la automatización compleja (por ejemplo, fabricación de circuitos electrónicos).