Los LLM fallan con gracia: el rendimiento en contextos largos se degrada incluso en tareas simples

2025-07-15
Los LLM fallan con gracia: el rendimiento en contextos largos se degrada incluso en tareas simples

Esta investigación desafía la suposición común de que los grandes modelos de lenguaje (LLM) tienen un rendimiento uniforme en tareas de contexto largo. Al ampliar el benchmark Needle in a Haystack e introducir variables como la coincidencia semántica y los distractores, los investigadores descubrieron que incluso en condiciones simplificadas, el rendimiento del modelo disminuye a medida que aumenta la longitud de la entrada. Esto se confirmó en preguntas y respuestas conversacionales y en una tarea de replicación de palabras repetidas, lo que revela limitaciones en las capacidades de contexto largo de los LLM y sugiere posibles desafíos en las aplicaciones del mundo real.

Leer más