LLMが現実世界のファクトチェックで失敗：能力の顕著な差

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

LLMが現実世界のファクトチェックで失敗：能力の顕著な差

2025-06-05

著者は、ADHD治療薬の長期的効果に関する複雑な現実世界のファクトチェックタスクで、いくつかの大規模言語モデル（LLM）をテストしました。その結果、パフォーマンスに大きな差があることが明らかになりました。いくつかのLLMは現実世界の文書を正確に引用し要約しましたが、他のLLMは深刻な「リンクの幻覚」と情報源の誤解に見舞われました。著者は、現在のLLMのテスト方法は単純すぎるため、複雑な情報を処理する能力を十分に評価できないと主張し、この重要な問題へのより多くの注意を呼びかけています。

(mikecaulfield.substack.com)

AI AI能力の差異

カルセン、クラシックチェスの引退示唆？転換期か

オープンソースツールLVTShift：あなたの街の土地価値税をモデル化