Los LLM fracasan en Set, los modelos de razonamiento triunfan

2025-02-19
Los LLM fracasan en Set, los modelos de razonamiento triunfan

Un experimento probó las capacidades de razonamiento de los Modelos de Lenguaje Grandes (LLM) en el juego de cartas Set. Set requiere identificar conjuntos de tres cartas de una disposición de doce, basándose en reglas específicas sobre forma, color, número y sombreado. Los LLM como GPT-4o, Sonnet-3.5 y Mistral no lograron identificar consistentemente conjuntos correctos, a menudo sugiriendo combinaciones inválidas o afirmando que no existían conjuntos. Sin embargo, los modelos de razonamiento más nuevos, DeepThink-R1 y o3-mini, resolvieron con éxito el problema, demostrando habilidades superiores de razonamiento lógico. Esto destaca una limitación de los LLM en tareas lógicas complejas, incluso mientras destacan en el procesamiento del lenguaje natural, mientras que los modelos de razonamiento especializados muestran una clara ventaja.