大型语言模型的“事实核查”能力差异巨大

2025-06-05
大型语言模型的“事实核查”能力差异巨大

作者使用一个关于ADHD药物长期疗效的复杂案例,测试了多个大型语言模型(LLM)的事实核查能力。结果显示,不同模型的表现差异巨大:一些模型能够准确引用和总结真实世界文档,而另一些则存在严重的“链接幻觉”和来源误解问题。作者认为,现有LLM的测试方法过于简单,无法充分评估其处理复杂信息的能力,并呼吁业界重视这一问题。