LLMs falham em generalizar além dos dados de treinamento

2025-08-12
LLMs falham em generalizar além dos dados de treinamento

Pesquisadores testaram a capacidade de generalização de grandes modelos de linguagem (LLMs) em tarefas, formatos e comprimentos além de seus dados de treinamento. Os resultados mostraram uma queda dramática na precisão à medida que a tarefa divergia da distribuição de treinamento. Mesmo fornecendo respostas corretas, os modelos frequentemente exibiam raciocínio ilógico ou raciocínio inconsistente com suas respostas. Isso sugere que o raciocínio em cadeia (CoT) em LLMs não reflete uma verdadeira compreensão do texto, mas sim a replicação de padrões aprendidos durante o treinamento. O desempenho também piorou drasticamente quando apresentado a entradas de comprimentos variados ou símbolos desconhecidos, destacando ainda mais as limitações na generalização.