Los LLM no logran generalizar más allá de los datos de entrenamiento

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-08-12

Investigadores probaron la capacidad de generalización de los grandes modelos de lenguaje (LLM) en tareas, formatos y longitudes fuera de sus datos de entrenamiento. Los resultados mostraron una caída drástica en la precisión a medida que la tarea divergía de la distribución de entrenamiento. Incluso al proporcionar respuestas correctas, los modelos a menudo mostraban un razonamiento ilógico o un razonamiento inconsistente con sus respuestas. Esto sugiere que el razonamiento en cadena (CoT) en los LLM no refleja una verdadera comprensión del texto, sino más bien la replicación de patrones aprendidos durante el entrenamiento. El rendimiento también empeoró drásticamente cuando se les presentaron entradas de longitudes variadas o símbolos desconocidos, lo que destaca aún más las limitaciones en la generalización.