告别Adam:初始化学习率缩放是训练Transformer的关键
2024-12-18
研究人员提出了一种名为SGD-SaI的新型优化器,它对随机梯度下降法进行了改进。SGD-SaI通过根据梯度信噪比对不同参数组进行初始化学习率缩放,从而避免了训练不平衡问题,并且在内存效率方面远超AdamW。在各种Transformer模型任务(包括图像分类和大型语言模型预训练)中,SGD-SaI的表现与AdamW不相上下甚至更好,展现出其在不同应用中的鲁棒性和实用性。