LLM排除ゲーム:社会的推論、戦略、そして欺瞞
2025-04-07
研究者たちは、大規模言語モデル(LLM)の社会的推論、戦略、そして欺瞞における能力を評価するために、マルチプレイヤーの「排除ゲーム」ベンチマークを作成しました。8つのLLMが競い合い、公開および非公開の会話を行い、同盟を結び、投票によって相手を排除し、最終的に2つまで絞り込まれます。その後、排除されたプレイヤーの陪審員が勝者を決めます。会話ログ、投票パターン、ランキングを分析することで、LLMが共有知識と隠された意図のバランスを取り、同盟を築いたり、戦略的に裏切ったりする方法が明らかになります。このベンチマークは単純な対話を超え、モデルが公開と非公開のダイナミクス、戦略的投票、陪審員の説得力などを乗り越えることを強制します。GPT-4.5 Previewが最高の成績を収めました。
AI
マルチエージェント