Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Juego de Eliminación de LLM: Razonamiento Social, Estrategia y Engaño

2025-04-07

Los investigadores crearon un benchmark de "juego de eliminación" multijugador para evaluar los grandes modelos de lenguaje (LLM) en razonamiento social, estrategia y engaño. Ocho LLM compiten, participando en conversaciones públicas y privadas, formando alianzas y votando para eliminar oponentes hasta que solo quedan dos. Un jurado de jugadores eliminados decide entonces al ganador. Al analizar los registros de conversaciones, los patrones de votación y las clasificaciones, se revela cómo los LLM equilibran el conocimiento compartido con intenciones ocultas, forjando alianzas o traicionándolas estratégicamente. El benchmark va más allá de los diálogos simples, obligando a los modelos a navegar por las dinámicas públicas frente a las privadas, la votación estratégica y la persuasión del jurado. GPT-4.5 Preview surgió como el mejor.

(github.com)

IA Juego Estratégico