作者测试了多个大型语言模型(LLM)下国际象棋的能力,发现除了gpt-3.5-turbo-instruct外,其他模型的棋力都很差,即使是参数量更大的模型也不例外。作者对比了相同模型的指令微调版本和基础版本,发现指令微调反而降低了模型的棋力。作者提出了几种可能的解释,包括指令微调破坏了模型下棋的能力、gpt-3.5-turbo-instruct训练数据中包含更多棋谱、不同模型的架构差异以及不同类型数据之间的“竞争”。