LLMs Fracassam no Set, Modelos de Raciocínio Triunfam

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

LLMs Fracassam no Set, Modelos de Raciocínio Triunfam

2025-02-19

Um experimento testou as capacidades de raciocínio de Modelos de Linguagem Grandes (LLMs) no jogo de cartas Set. Set exige identificar conjuntos de três cartas de um layout de doze, com base em regras específicas sobre forma, cor, número e sombreamento. LLMs como GPT-4o, Sonnet-3.5 e Mistral falharam em identificar consistentemente conjuntos corretos, muitas vezes sugerindo combinações inválidas ou afirmando que não existiam conjuntos. No entanto, modelos de raciocínio mais novos, DeepThink-R1 e o3-mini, resolveram com sucesso o problema, demonstrando habilidades superiores de raciocínio lógico. Isso destaca uma limitação dos LLMs em tarefas lógicas complexas, mesmo enquanto se destacam no processamento de linguagem natural, enquanto modelos de raciocínio especializados mostram uma clara vantagem.

(github.com)

IA Jogo Set

NASA suspende demissões: o novo indicado para administrador por trás dos panos?

Google Play Books contorna a comissão da App Store da Apple no iOS