Juego de Eliminación de LLM: Razonamiento Social, Estrategia y Engaño
Los investigadores crearon un benchmark de "juego de eliminación" multijugador para evaluar los grandes modelos de lenguaje (LLM) en razonamiento social, estrategia y engaño. Ocho LLM compiten, participando en conversaciones públicas y privadas, formando alianzas y votando para eliminar oponentes hasta que solo quedan dos. Un jurado de jugadores eliminados decide entonces al ganador. Al analizar los registros de conversaciones, los patrones de votación y las clasificaciones, se revela cómo los LLM equilibran el conocimiento compartido con intenciones ocultas, forjando alianzas o traicionándolas estratégicamente. El benchmark va más allá de los diálogos simples, obligando a los modelos a navegar por las dinámicas públicas frente a las privadas, la votación estratégica y la persuasión del jurado. GPT-4.5 Preview surgió como el mejor.