LLMはうまく失敗する:長いコンテキストにおける性能は、簡単なタスクでも低下する
2025-07-15

この研究は、大規模言語モデル(LLM)が長いコンテキストのタスクで均一に良好な性能を発揮するという一般的な仮定に挑戦しています。「干し草の山の中の針」ベンチマークを拡張し、意味的なマッチングやディストラクターなどの変数を導入することで、研究者たちは、簡素化された条件下でも、入力の長さが増えるにつれてモデルの性能が低下することを発見しました。これは、会話的な質疑応答と繰り返される単語の複製タスクで確認され、LLMの長いコンテキスト能力の限界を示し、現実世界のアプリケーションにおける潜在的な課題を示唆しています。
AI
長いコンテキスト