Modelos de Raciocínio de Grande Escala: Colapso e Escalabilidade Contraintuitiva

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-06-08

Modelos de linguagem de grande porte (LLMs) recentes geraram Modelos de Raciocínio de Grande Escala (LRMs), que geram rastros de raciocínio detalhados antes de fornecer respostas. Embora mostrem melhorias em benchmarks de raciocínio, suas capacidades fundamentais permanecem pouco compreendidas. Este trabalho investiga LRMs usando ambientes de quebra-cabeças controláveis, revelando um colapso completo de precisão além de um determinado limite de complexidade. Surpreendentemente, o esforço de raciocínio aumenta com a complexidade, depois diminui apesar de um orçamento de tokens suficiente. Comparados a LLMs padrão, três regimes emergiram: (1) tarefas de baixa complexidade onde LLMs padrão superam LRMs, (2) tarefas de média complexidade onde LRMs mostram uma vantagem, e (3) tarefas de alta complexidade onde ambos falham. LRMs exibem limitações em computação exata, falhando em usar algoritmos explícitos e raciocinando de forma inconsistente. Este estudo destaca os pontos fortes, limitações e questões cruciais em torno das verdadeiras capacidades de raciocínio de LRMs.