大規模推論モデル:崩壊と直感に反するスケーリング
2025-06-08
最近の最先端の大規模言語モデル(LLM)は、回答を提供する前に詳細な思考過程を生成する大規模推論モデル(LRM)を生み出しました。これらのモデルは推論ベンチマークで性能が向上していますが、その基本的な能力、スケーリング特性、および限界は十分に理解されていません。本研究では、制御可能なパズル環境を用いてLRMの推論能力を体系的に調査します。その結果、LRMは特定の複雑さを超えると完全な精度崩壊を示し、さらに直感に反するスケーリング限界を示すことがわかりました。つまり、推論の努力は問題の複雑さの増加とともに増加しますが、ある時点を超えると、十分なトークン予算があっても減少します。また、LRMは正確な計算において限界があり、明示的なアルゴリズムを使用できず、パズル間で矛盾した推論を行うこともわかりました。この研究は、LRMの長所、短所、そしてその真の推論能力に関する重要な問題を明らかにしています。
AI