大型语言模型的“淘汰赛”:策略、推理与欺骗

2025-04-07
大型语言模型的“淘汰赛”:策略、推理与欺骗

研究人员设计了一款多玩家“淘汰赛”游戏,用于评估大型语言模型(LLM)在社交推理、策略和欺骗方面的能力。游戏中,8个LLM扮演玩家,通过公开和私下对话、结盟和投票来淘汰彼此,最终决出胜负。通过分析对话记录、投票模式和最终排名,研究人员揭示了LLM如何权衡共享知识与隐藏意图,以及如何在关键时刻结盟或背叛。该基准测试超越了简单的对话,创建了一个丰富的环境,迫使模型在公开讨论与秘密联盟之间取得平衡,并运用策略性投票和最终的陪审团辩论来赢得胜利。GPT-4.5 Preview在该基准测试中表现最佳。