苹果论文挑战AI推理能力:并非「真」推理?

2025-06-09

苹果最新论文《思考的幻象》测试了大型语言模型在解决塔诺问题时的推理能力。结果显示,模型在简单问题上表现甚至不如非推理模型;中等难度问题上表现较好;但复杂问题上,模型会放弃,即使给出算法也效果不佳。作者质疑模型的泛化推理能力。然而,本文作者认为,论文使用的塔诺问题并非理想的推理测试,模型的“放弃”可能源于对大量步骤的规避,而非推理能力的局限。模型在一定步骤后放弃并不意味着它们不具备推理能力,这与人类在复杂问题面前表现相似。

AI