Appleの論文がAI推論能力に挑戦:本当の「推論」ではない?
2025-06-09
Appleの最近の論文「思考の幻想」は、ハノイの塔のパズルを用いて大規模言語モデルの推論能力をテストした。その結果、単純な問題では非推論モデルよりも性能が劣り、中程度の難易度では良好だが、複雑な問題では、アルゴリズムが提供されてもモデルは諦めてしまうことがわかった。著者らは、モデルの汎化可能な推論能力に疑問を呈している。しかし、この記事では、論文で用いられたハノイの塔のパズルはテストとして不適切であると主張する。モデルの「諦め」は、多数のステップを避けることから生じている可能性があり、推論能力の限界ではない。一定のステップ数を超えて諦めることは、モデルが推論能力を欠いていることを意味せず、複雑な問題に直面した人間の行動を反映している。
AI