这篇论文揭示了,尽管大型语言模型(LLM)在许多任务中表现出色,但在面对一些简单的常识推理问题时,即使是最大规模的模型也存在严重的推理崩溃问题。这些模型不仅会给出错误答案,还会表现出过度自信,并编造出看似合理的解释来支持其错误结论。即使采用各种提示或多步骤重新评估等干预措施,也无法让模型给出正确答案。