深度学习优化中超越梯度平均:梯度一致性过滤提高鲁棒性

2024-12-30
深度学习优化中超越梯度平均:梯度一致性过滤提高鲁棒性

本文提出了一种名为梯度一致性过滤 (GAF) 的新方法,用于改进分布式深度学习优化中的梯度平均。传统方法平均微批量梯度来计算宏批量梯度,但这在训练后期容易导致梯度正交或负相关,从而造成过拟合。GAF 通过计算微梯度间的余弦距离,过滤掉冲突的更新,有效降低了梯度方差,提升了验证精度。实验结果表明,GAF 在 CIFAR-100 和 CIFAR-100N-Fine 等图像分类基准测试中,即使使用更小的微批量大小,也能显著提高精度,最高可达 18.2%,同时降低了计算量。