预训练中的程序性知识驱动大型语言模型的推理

2024-12-01

大型语言模型(LLM)的推理能力一直备受关注,本文研究了LLM在执行推理任务时所使用的泛化策略。研究人员通过分析对模型输出有影响的预训练数据,发现LLM在处理事实性问题和推理问题时依赖不同的数据。对于事实性问题,模型依赖于不同的数据集;而对于推理问题,同一任务下的不同问题往往依赖于相似的数据,这表明LLM具备程序性知识。此外,推理问题的答案和中间步骤的答案通常不会在最有影响力的数据中出现。通过对推理问题中最具影响力的文档进行定性分析,研究人员确认这些文档通常包含程序性知识,例如演示如何使用公式或代码获得解决方案。研究结果表明,LLM的推理方法不像检索,而更像一种从执行类似推理的文档中综合程序性知识的泛化策略。

9
未分类 程序性知识