Au-delà de la Moyenne des Gradients dans l'Optimisation Parallèle : Robustesse Améliorée grâce au Filtrage d'Accord des Gradients

2024-12-30

Cet article présente le Filtrage d'Accord des Gradients (FAG), une nouvelle méthode pour améliorer la moyenne des gradients dans l'optimisation de l'apprentissage profond distribué. Les méthodes traditionnelles moyennent les gradients de micro-lots pour calculer un gradient de macro-lot, mais cela peut conduire à des gradients orthogonaux ou négativement corrélés aux stades ultérieurs de l'entraînement, entraînant un sur-apprentissage. Le FAG réduit la variance du gradient en calculant la distance cosinus entre les micro-gradients et en filtrant les mises à jour conflictuelles avant la moyenne. Les expériences sur des benchmarks de classification d'images tels que CIFAR-100 et CIFAR-100N-Fine montrent que le FAG améliore significativement la précision de validation, même avec des tailles de micro-lots plus petites, atteignant jusqu'à 18,2 % d'amélioration par rapport aux approches traditionnelles tout en réduisant le coût de calcul.