Webtagr - 科技资讯摘要

大型语言模型与国际象棋的怪异现象探究

2024-11-22

文章探讨了大型语言模型（LLM）在国际象棋中表现的奇怪现象：gpt-3.5-turbo-instruct棋力远超其他LLM。作者通过实验发现，并非OpenAI作弊，而是其他LLM未能充分发挥潜力。通过“强制复述”技巧，即要求模型复述整个棋局后再给出下一步，可以显著提高gpt-4o-mini和gpt-4o的棋力。作者认为，OpenAI的基座模型在国际象棋方面表现优异，但聊天模式限制了其能力。此外，少量示例学习和微调也有助于提高棋力，但提供合法走法列表反而会降低性能。作者推测，OpenAI的基座模型训练数据包含更多高质量的棋局，而开放模型缺乏这方面的数据。

(dynomight.net)

6

未分类

大型语言模型与国际象棋的奇怪现象

2024-11-14

作者测试了多个大型语言模型(LLM)下国际象棋的能力，发现除了gpt-3.5-turbo-instruct外，其他模型的棋力都很差，即使是参数量更大的模型也不例外。作者对比了相同模型的指令微调版本和基础版本，发现指令微调反而降低了模型的棋力。作者提出了几种可能的解释，包括指令微调破坏了模型下棋的能力、gpt-3.5-turbo-instruct训练数据中包含更多棋谱、不同模型的架构差异以及不同类型数据之间的“竞争”。

(dynomight.net)

15

未分类