令数据压缩难题倍增:标记化问题被证明为NP完全问题

2024-12-22

一篇发表于arXiv的论文证明了两种标记化变体的NP完全性。标记化是将数据集压缩到最多δ个符号的问题,这两种变体分别是直接寻找词汇表(直接标记化)和选择一系列合并操作(自下而上标记化)。这一发现对数据压缩和自然语言处理领域具有重大意义,表明高效解决大规模数据集标记化问题极具挑战性。