大型语言模型与国际象棋的怪异现象探究

2024-11-22

文章探讨了大型语言模型(LLM)在国际象棋中表现的奇怪现象:gpt-3.5-turbo-instruct棋力远超其他LLM。作者通过实验发现,并非OpenAI作弊,而是其他LLM未能充分发挥潜力。通过“强制复述”技巧,即要求模型复述整个棋局后再给出下一步,可以显著提高gpt-4o-mini和gpt-4o的棋力。作者认为,OpenAI的基座模型在国际象棋方面表现优异,但聊天模式限制了其能力。此外,少量示例学习和微调也有助于提高棋力,但提供合法走法列表反而会降低性能。作者推测,OpenAI的基座模型训练数据包含更多高质量的棋局,而开放模型缺乏这方面的数据。

未分类