LLMが現実世界のファクトチェックで失敗:能力の顕著な差

2025-06-05
LLMが現実世界のファクトチェックで失敗:能力の顕著な差

著者は、ADHD治療薬の長期的効果に関する複雑な現実世界のファクトチェックタスクで、いくつかの大規模言語モデル(LLM)をテストしました。その結果、パフォーマンスに大きな差があることが明らかになりました。いくつかのLLMは現実世界の文書を正確に引用し要約しましたが、他のLLMは深刻な「リンクの幻覚」と情報源の誤解に見舞われました。著者は、現在のLLMのテスト方法は単純すぎるため、複雑な情報を処理する能力を十分に評価できないと主張し、この重要な問題へのより多くの注意を呼びかけています。