训练大型语言模型在连续潜在空间中进行推理
2024-12-10
大型语言模型(LLM)通常在“语言空间”中进行推理,使用思维链(CoT)解决复杂问题。然而,语言空间并非总是最优的,因为许多词语对推理并非必要,而一些关键词语又需要复杂的规划。本文介绍了一种新的范式Coconut(连续思维链),它利用LLM的最后一个隐藏状态作为推理状态(称为“连续思维”)的表示,并将其直接反馈给LLM作为后续输入嵌入,而不是将其解码为词语标记。实验表明,Coconut可以有效地增强LLM在多个推理任务上的性能。这种新的潜在推理范式带来了高级推理模式:连续思维可以编码多个替代的推理步骤,允许模型执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地提交到单一的确定性路径。在某些需要大量回溯的逻辑推理任务中,Coconut的性能优于CoT,并且推理所需的思维标记更少。
2
未分类
连续潜在空间