Los LLM fallan con gracia: el rendimiento en contextos largos se degrada incluso en tareas simples
2025-07-15
Esta investigación desafía la suposición común de que los grandes modelos de lenguaje (LLM) tienen un rendimiento uniforme en tareas de contexto largo. Al ampliar el benchmark Needle in a Haystack e introducir variables como la coincidencia semántica y los distractores, los investigadores descubrieron que incluso en condiciones simplificadas, el rendimiento del modelo disminuye a medida que aumenta la longitud de la entrada. Esto se confirmó en preguntas y respuestas conversacionales y en una tarea de replicación de palabras repetidas, lo que revela limitaciones en las capacidades de contexto largo de los LLM y sugiere posibles desafíos en las aplicaciones del mundo real.
Leer más