大型语言模型(LLM)经常会产生错误,包括事实不准确、偏差和推理失败,这些统称为“幻觉”。本文研究发现,LLM的内部状态编码了关于其输出真实性的信息,而且这些信息比以前认为的要多得多。研究首先发现,真实性信息集中在特定的词例中,利用这一特性可以显著提高错误检测性能。然而,这种错误检测器无法跨数据集泛化,这意味着真实性编码并非普遍的,而是多方面的。此外,内部表征还可以用于预测模型可能出现的错误类型,从而有助于制定有针对性的缓解策略。最后,研究揭示了LLM内部编码和外部行为之间的差异:它们可能编码了正确答案,但却持续生成错误答案。