Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

评估生成模型中隐含的世界模型

2024-11-07

本文研究了大型语言模型是否隐含地学习了世界模型。作者针对底层现实由确定性有限自动机控制的情况，提出了新的评估指标，并将其应用于游戏、逻辑谜题和导航三个领域。结果表明，尽管生成模型在现有诊断中表现良好，但新的指标揭示了其世界模型远不如表面看起来那么连贯，这种不连贯性会导致模型在处理类似任务时出现严重错误。

(arxiv.org)

未分类评估指标