这篇论文探讨了大型语言模型(LLM)中的不确定性量化问题,旨在识别查询响应中不确定性较大的情况。作者同时考虑了认知不确定性和随机不确定性,并推导出了一种信息论度量方法,可以仅基于模型输出可靠地检测认知不确定性较大的情况,从而判断模型输出的可靠性。该方法可以用于检测单次和多次响应中的幻觉现象,并通过实验证明了其优势。