大規模言語モデルはSetゲームに失敗、推論モデルが勝利

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-02-19

大規模言語モデル（LLM）の推論能力をカードゲームSetでテストする実験が行われました。Setは、12枚のカードから形状、色、数、陰影に関する特定のルールに基づいて3枚のカードのセットを特定するゲームです。GPT-4o、Sonnet-3.5、MistralなどのLLMは、正しいセットを首尾一貫して特定できず、多くの場合、無効な組み合わせを提案したり、セットが存在しないと主張したりしました。しかし、DeepThink-R1やo3-miniなどの新しい推論モデルは、問題を解決し、優れた論理的推論能力を示しました。これは、LLMが自然言語処理では優れているものの、複雑な論理的タスクには限界があることを示しており、専門的な推論モデルが明確な利点を持つことを示しています。