並列最適化における勾配平均化を超えて:勾配合意フィルタリングによる堅牢性の向上
2024-12-30
本論文では、分散型深層学習最適化における勾配平均化を改善するための新しい手法である勾配合意フィルタリング(GAF)を紹介します。従来の手法では、ミニバッチ勾配の平均化によってマクロバッチ勾配を計算しますが、これはトレーニングの後半段階で勾配が直交したり負の相関を持つことになり、過学習につながります。GAFは、ミニ勾配間の余弦距離を計算し、平均化前に矛盾する更新をフィルタリングすることで、勾配の分散を削減します。CIFAR-100やCIFAR-100N-Fineなどの画像分類ベンチマークにおける実験により、GAFは、より小さいミニバッチサイズであっても検証精度を大幅に向上させ、従来の手法と比較して最大18.2%の向上を達成し、計算コストを削減することが示されました。