LLMs falham graciosamente: o desempenho em contextos longos se degrada mesmo em tarefas simples
2025-07-15

Esta pesquisa desafia a suposição comum de que grandes modelos de linguagem (LLMs) apresentam um desempenho uniforme em tarefas de contexto longo. Ao expandir o benchmark Needle in a Haystack e introduzir variáveis como correspondência semântica e distrações, os pesquisadores descobriram que, mesmo em condições simplificadas, o desempenho do modelo se degrada à medida que o comprimento da entrada aumenta. Isso foi confirmado em perguntas e respostas conversacionais e em uma tarefa de replicação de palavras repetidas, revelando limitações nas capacidades de contexto longo de LLM e sugerindo potenciais desafios em aplicativos do mundo real.