大型语言模型玩文字冒险游戏:一种新的评估方法
2025-08-12
本文介绍了一种评估大型语言模型(LLM)在文字冒险游戏中的能力的新方法。该方法通过设定回合限制和一系列游戏成就,来衡量LLM在有限回合内完成游戏目标的程度。由于文字冒险游戏的高度自由性和分支性,该方法并非旨在给出绝对的性能分数,而是用于相对比较不同LLM模型之间的能力差异。实验中,LLM会被赋予一系列成就目标,并在有限回合内尝试达成,最终分数基于达成成就的数量。即使强大的LLM也难以在有限回合内探索所有分支,因此分数主要反映模型的相对能力,而非绝对游戏技巧。
AI