Los LLM no logran generalizar más allá de los datos de entrenamiento
Investigadores probaron la capacidad de generalización de los grandes modelos de lenguaje (LLM) en tareas, formatos y longitudes fuera de sus datos de entrenamiento. Los resultados mostraron una caída drástica en la precisión a medida que la tarea divergía de la distribución de entrenamiento. Incluso al proporcionar respuestas correctas, los modelos a menudo mostraban un razonamiento ilógico o un razonamiento inconsistente con sus respuestas. Esto sugiere que el razonamiento en cadena (CoT) en los LLM no refleja una verdadera comprensión del texto, sino más bien la replicación de patrones aprendidos durante el entrenamiento. El rendimiento también empeoró drásticamente cuando se les presentaron entradas de longitudes variadas o símbolos desconocidos, lo que destaca aún más las limitaciones en la generalización.