팩토리오 학습 환경: LLM을 위한 새로운 벤치마크
2025-03-11
대규모 언어 모델(LLM)은 기존 벤치마크를 빠르게 능가하고 있으며, 새로운 오픈 엔드 평가가 필요합니다. 팩토리오 학습 환경(FLE)은 게임 '팩토리오'를 기반으로 하며, 장기 계획, 프로그램 합성, 자원 최적화에서 에이전트의 능력을 테스트합니다. FLE는 기본 자동화부터 초당 수백만 단위의 자원을 처리하는 복잡한 공장에 이르기까지, 오픈 엔드 방식으로 기하급수적으로 확장되는 과제를 제공합니다. 두 가지 설정이 있습니다. 고정된 자원을 가진 24개의 구조화된 작업으로 구성된 랩 플레이와, 절차적으로 생성된 맵에서 무에서 최대 규모의 공장을 건설하는 무제한 작업인 오픈 플레이입니다. 두 설정 모두에서 모델은 여전히 강력한 공간 추론 능력이 부족하다는 것을 보여주었습니다. 랩 플레이에서는 LLM이 단기적인 기술에서 유망한 결과를 보여주지만, 제약이 있는 환경에서는 효과적으로 작동하지 못하며, 오류 분석의 한계를 반영합니다. 오픈 플레이에서는 LLM이 성장을 개선하는 자동화 전략(예: 전기 드릴)을 발견하지만, 복잡한 자동화(예: 전자 회로 제조)를 달성하지 못합니다.
AI
팩토리오