Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung
Dieser Artikel stellt die Gradientenübereinstimmungsfilterung (GAF) vor, eine neue Methode zur Verbesserung der Gradientenmittelung in der verteilten Deep-Learning-Optimierung. Traditionelle Methoden mitteln die Gradienten von Mikrobatchs, um einen Makrobatch-Gradienten zu berechnen, aber dies kann in späteren Trainingsphasen zu orthogonalen oder negativ korrelierten Gradienten führen, was zu Überanpassung führt. GAF reduziert die Gradientenvarianz, indem es die Kosinusdistanz zwischen Mikrogrenzwerten berechnet und widersprüchliche Aktualisierungen vor der Mittelung herausfiltert. Experimente an Bildklassifizierungsbenchmarks wie CIFAR-100 und CIFAR-100N-Fine zeigen, dass GAF die Validierungsgenauigkeit deutlich verbessert, selbst bei kleineren Mikrobatchgrößen, und bis zu 18,2 % im Vergleich zu traditionellen Ansätzen erreicht, während gleichzeitig die Rechenkosten reduziert werden.