大規模言語モデルはSetゲームに失敗、推論モデルが勝利
2025-02-19
大規模言語モデル(LLM)の推論能力をカードゲームSetでテストする実験が行われました。Setは、12枚のカードから形状、色、数、陰影に関する特定のルールに基づいて3枚のカードのセットを特定するゲームです。GPT-4o、Sonnet-3.5、MistralなどのLLMは、正しいセットを首尾一貫して特定できず、多くの場合、無効な組み合わせを提案したり、セットが存在しないと主張したりしました。しかし、DeepThink-R1やo3-miniなどの新しい推論モデルは、問題を解決し、優れた論理的推論能力を示しました。これは、LLMが自然言語処理では優れているものの、複雑な論理的タスクには限界があることを示しており、専門的な推論モデルが明確な利点を持つことを示しています。
AI
Setゲーム