LLMs Fracassam no Set, Modelos de Raciocínio Triunfam
Um experimento testou as capacidades de raciocínio de Modelos de Linguagem Grandes (LLMs) no jogo de cartas Set. Set exige identificar conjuntos de três cartas de um layout de doze, com base em regras específicas sobre forma, cor, número e sombreamento. LLMs como GPT-4o, Sonnet-3.5 e Mistral falharam em identificar consistentemente conjuntos corretos, muitas vezes sugerindo combinações inválidas ou afirmando que não existiam conjuntos. No entanto, modelos de raciocínio mais novos, DeepThink-R1 e o3-mini, resolveram com sucesso o problema, demonstrando habilidades superiores de raciocínio lógico. Isso destaca uma limitação dos LLMs em tarefas lógicas complexas, mesmo enquanto se destacam no processamento de linguagem natural, enquanto modelos de raciocínio especializados mostram uma clara vantagem.