GSM-Symbolic:理解大型语言模型在数学推理中的局限性
2024-10-11
大型语言模型 (LLM) 在数学推理能力方面取得了进步,但其可靠性仍存在疑问。本文针对这一问题,引入了一个名为 GSM-Symbolic 的改进基准,用于评估模型在不同难度数学问题上的表现。研究发现,LLM 在处理相同问题结构但数值不同的情况下表现出显著差异。此外,模型的数学推理能力随着问题复杂性的增加而下降,这表明当前的 LLM 可能无法进行真正的逻辑推理,而是复制训练数据中的推理步骤。
22
未分类