Meta发布字节级大型语言模型BLT:超越分词的效率与鲁棒性
Meta研究团队近日推出了一种名为“字节级潜在Transformer”(BLT)的新型大型语言模型架构。该模型直接对字节进行编码,而非传统的单词或子词标记,并根据字节的熵动态调整计算资源分配。 BLT在高达80亿参数的规模上实现了与基于标记的模型相当的性能,同时在推理效率和鲁棒性方面取得了显著提升,尤其在处理长尾数据和复杂推理任务时表现出色。这项研究证明了在无需固定词表的情况下,直接训练基于原始字节的模型的可行性,为大型语言模型的未来发展方向提供了新的思路。
阅读更多