超越BPE:大型语言模型分词的未来方向
2025-05-30
文章探讨了大型预训练语言模型中分词方法的改进方向。作者对当前普遍使用的基于字节对编码(BPE)的分词方法提出质疑,认为其处理单词开头和内部子词的方式存在不足,并建议探索新的方法,例如添加新的单词掩码。此外,作者认为使用压缩算法预处理输入并非最佳方案,并建议直接使用字符级语言建模,类似于循环神经网络(RNN)和更深层的自注意力机制模型。然而,由于注意力机制的计算复杂度,这种方法面临挑战。作者提出了一种基于树结构的改进思路,通过窗口化子序列和分层注意力机制来降低计算复杂度,并更好地捕捉语言结构。
AI
分词