Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

告别Adam：初始化学习率缩放是训练Transformer的关键

2024-12-18

研究人员提出了一种名为SGD-SaI的新型优化器，它对随机梯度下降法进行了改进。SGD-SaI通过根据梯度信噪比对不同参数组进行初始化学习率缩放，从而避免了训练不平衡问题，并且在内存效率方面远超AdamW。在各种Transformer模型任务（包括图像分类和大型语言模型预训练）中，SGD-SaI的表现与AdamW不相上下甚至更好，展现出其在不同应用中的鲁棒性和实用性。

(arxiv.org)

AI SGD-SaI AdamW