Transformer 可以通过正确的嵌入进行算术运算

2024-05-28

这篇论文研究了Transformer在算术任务中的表现,发现Transformer难以跟踪数字序列中每个数字的精确位置。作者通过为每个数字添加一个嵌入来编码其相对于数字开头的位置,解决了这个问题。这种方法不仅提高了Transformer在算术任务上的性能,还使得输入注入和循环层等架构改进成为可能。作者还研究了Transformer的逻辑外推能力,发现通过在20位数的训练数据上训练一天,Transformer可以达到最先进的性能,在100位数的加法问题上达到99%的准确率。最后,作者还发现,这些在算术能力上的提升也能应用于其他多步骤推理任务,包括排序和乘法。

47
未分类 算术任务