大規模言語モデルは訓練データを超えた一般化に失敗する
2025-08-12
研究者たちは、大規模言語モデル(LLM)が、その訓練データの外にあるタスクの種類、フォーマット、長さにおいて、どれだけ一般化できるかをテストしました。その結果、タスクが訓練データから離れるにつれて、精度が劇的に低下することがわかりました。正しい答えを出力したとしても、モデルはしばしば非論理的な推論や、答えと矛盾する推論を示しました。これは、LLMにおける思考連鎖(CoT)推論が、真のテキスト理解を反映しているのではなく、訓練中に学習したパターンの複製であることを示唆しています。様々な長さの入力や、モデルにとって未知の記号を含む入力に対しても、パフォーマンスは劇的に低下し、一般化能力の限界を浮き彫りにしました。
AI
一般化