LLM排除ゲーム：社会的推論、戦略、そして欺瞞

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-07

研究者たちは、大規模言語モデル（LLM）の社会的推論、戦略、そして欺瞞における能力を評価するために、マルチプレイヤーの「排除ゲーム」ベンチマークを作成しました。8つのLLMが競い合い、公開および非公開の会話を行い、同盟を結び、投票によって相手を排除し、最終的に2つまで絞り込まれます。その後、排除されたプレイヤーの陪審員が勝者を決めます。会話ログ、投票パターン、ランキングを分析することで、LLMが共有知識と隠された意図のバランスを取り、同盟を築いたり、戦略的に裏切ったりする方法が明らかになります。このベンチマークは単純な対話を超え、モデルが公開と非公開のダイナミクス、戦略的投票、陪審員の説得力などを乗り越えることを強制します。GPT-4.5 Previewが最高の成績を収めました。