大型语言模型与国际象棋的怪异现象探究

2024-11-22

文章探讨了大型语言模型(LLM)在国际象棋中表现的奇怪现象:gpt-3.5-turbo-instruct棋力远超其他LLM。作者通过实验发现,并非OpenAI作弊,而是其他LLM未能充分发挥潜力。通过“强制复述”技巧,即要求模型复述整个棋局后再给出下一步,可以显著提高gpt-4o-mini和gpt-4o的棋力。作者认为,OpenAI的基座模型在国际象棋方面表现优异,但聊天模式限制了其能力。此外,少量示例学习和微调也有助于提高棋力,但提供合法走法列表反而会降低性能。作者推测,OpenAI的基座模型训练数据包含更多高质量的棋局,而开放模型缺乏这方面的数据。

阅读更多
未分类

大型语言模型与国际象棋的奇怪现象

2024-11-14

作者测试了多个大型语言模型(LLM)下国际象棋的能力,发现除了gpt-3.5-turbo-instruct外,其他模型的棋力都很差,即使是参数量更大的模型也不例外。作者对比了相同模型的指令微调版本和基础版本,发现指令微调反而降低了模型的棋力。作者提出了几种可能的解释,包括指令微调破坏了模型下棋的能力、gpt-3.5-turbo-instruct训练数据中包含更多棋谱、不同模型的架构差异以及不同类型数据之间的“竞争”。

阅读更多
未分类

为什么建议总是无效?

2024-07-11

文章探讨了为什么建议常常无效。作者列举了多种可能性,包括建议本身的缺陷、接受者缺乏理解或执行力、个体差异、以及人们寻求建议的动机可能并非真正想要解决方案。作者还指出,即使是有效的建议,也可能被归类为其他东西,而人们面临的困境往往也阻碍了他们采纳建议。

阅读更多
未分类

别再数世纪了

2024-07-05

文章主张人们在书写时用“1700s”代替“18世纪”这类表达,并解释了这种做法的优势:更易于理解、更简洁,并且避免了世纪与年份计算差异带来的歧义。作者还建议统一 trailing zeros 的用法,例如用“1490s”表示1490-1499年,以消除潜在的混淆。

阅读更多
未分类 世纪