Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering

2024-12-30

This paper introduces Gradient Agreement Filtering (GAF), a novel method to improve gradient averaging in distributed deep learning optimization. Traditional methods average micro-batch gradients to compute a macro-batch gradient, but this can lead to orthogonal or negatively correlated gradients in later training stages, resulting in overfitting. GAF reduces gradient variance by computing the cosine distance between micro-gradients and filtering out conflicting updates before averaging. Experiments on image classification benchmarks like CIFAR-100 and CIFAR-100N-Fine show that GAF significantly improves validation accuracy, even with smaller micro-batch sizes, achieving up to an 18.2% improvement over traditional approaches while reducing computational cost.

(arxiv.org)

AI gradient averaging robustness

China to Build Thorium Molten-Salt Reactor in 2025

Why Linux Still Isn't Ready for the Desktop