Jogo de Eliminação de LLMs: Raciocínio Social, Estratégia e Engano
Pesquisadores criaram um benchmark de "jogo de eliminação" multijogador para avaliar modelos de linguagem grandes (LLMs) em raciocínio social, estratégia e engano. Oito LLMs competem, participando de conversas públicas e privadas, formando alianças e votando para eliminar oponentes até que apenas dois permaneçam. Um júri de jogadores eliminados decide então o vencedor. Analisando logs de conversas, padrões de votação e classificações, revela-se como os LLMs equilibram o conhecimento compartilhado com intenções ocultas, forjando alianças ou traindo-as estrategicamente. O benchmark vai além de diálogos simples, forçando os modelos a navegar em dinâmicas públicas versus privadas, votação estratégica e persuasão do júri. GPT-4.5 Preview surgiu como o melhor desempenho.