数值精度如何影响大型语言模型的数学推理能力

2024-10-22

这篇论文研究了数值精度对基于Transformer的大型语言模型(LLM)数学推理能力的影响。研究发现,低数值精度的Transformer模型在处理迭代加法和整数乘法等算术任务时表现不佳,除非模型规模相对于输入长度呈超多项式增长。相比之下,具有标准数值精度的Transformer模型可以用小得多的模型规模有效地处理这些任务。

20
未分类 数值精度