评估生成模型中隐含的世界模型
2024-11-07
本文研究了大型语言模型是否隐含地学习了世界模型。作者针对底层现实由确定性有限自动机控制的情况,提出了新的评估指标,并将其应用于游戏、逻辑谜题和导航三个领域。结果表明,尽管生成模型在现有诊断中表现良好,但新的指标揭示了其世界模型远不如表面看起来那么连贯,这种不连贯性会导致模型在处理类似任务时出现严重错误。
15
未分类
评估指标