Problema de Tokenización Demostrado como NP-Completo: Se Duplican los Retos de la Compresión de Datos

2024-12-22
Problema de Tokenización Demostrado como NP-Completo: Se Duplican los Retos de la Compresión de Datos

Un artículo publicado en arXiv demuestra la completitud NP de dos variantes de la tokenización, definida como el problema de comprimir un conjunto de datos a un máximo de δ símbolos, ya sea encontrando un vocabulario directamente (tokenización directa) o seleccionando una secuencia de operaciones de fusión (tokenización ascendente). Este hallazgo tiene implicaciones significativas para la compresión de datos y el procesamiento del lenguaje natural, destacando el inmenso desafío de resolver eficientemente el problema de la tokenización para conjuntos de datos a gran escala.