本文探讨了大型语言模型(LLM)在国际象棋中表现的奇怪现象。作者通过实验发现,一年前被认为可以达到高级业余水平的LLM,如今除了gpt-3.5-turbo-instruct外,其他模型的表现都非常糟糕,即使是参数量更大的模型也无法胜任。作者提出了四种可能的解释:指令微调破坏了基础模型的棋力、GPT-3.5-instruct接受了更多棋局训练、不同的Transformer架构导致差异、不同类型数据之间的“竞争”。文章最后还讨论了输入提示中空格对模型性能的影响以及分词器的作用。