告别分词:大型语言模型的新纪元?
2025-06-24
本文探讨了大型语言模型中普遍存在的“分词”难题及其潜在解决方案。传统的分词方法如字节对编码(BPE)虽然有效压缩了词汇表,但同时也限制了模型的表达能力,导致各种下游问题。文章分析了多种尝试绕过分词的模型架构,例如ByT5、MambaByte、Hourglass Transformers等,并重点介绍了近期涌现的“字节潜伏变换器”(BLT)。BLT通过动态划分字节块,并结合局部编码器和全局变换器,在计算受限的环境下实现了比传统模型更好的性能和可扩展性,尤其在字符级任务上表现突出。虽然BLT仍存在一些挑战,但这项研究为大型语言模型的发展指明了新的方向,有望开启一个无需分词的新时代。
阅读更多
AI
字节潜伏变换器