大型语言模型玩文字冒险游戏：一种新的评估方法

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型玩文字冒险游戏：一种新的评估方法

2025-08-12

本文介绍了一种评估大型语言模型（LLM）在文字冒险游戏中的能力的新方法。该方法通过设定回合限制和一系列游戏成就，来衡量LLM在有限回合内完成游戏目标的程度。由于文字冒险游戏的高度自由性和分支性，该方法并非旨在给出绝对的性能分数，而是用于相对比较不同LLM模型之间的能力差异。实验中，LLM会被赋予一系列成就目标，并在有限回合内尝试达成，最终分数基于达成成就的数量。即使强大的LLM也难以在有限回合内探索所有分支，因此分数主要反映模型的相对能力，而非绝对游戏技巧。

(entropicthoughts.com)

arXivLabs：与社区协作者共建arXiv新功能

从Neon到PlanetScale：OpenSecret的数据库迁移之旅