这篇论文探讨了大型语言模型(LLM)能否作为基于文本的世界模拟器,用于预测动作如何改变世界状态。研究者创建了一个名为ByteSized32-State-Prediction的新基准数据集,包含文本游戏状态转换和游戏任务。通过测试GPT-4在该数据集上的表现,研究发现尽管GPT-4表现出色,但它仍然是一个不可靠的世界模拟器,需要进一步的创新。