Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

2024-12-30

Dieser Artikel stellt die Gradientenübereinstimmungsfilterung (GAF) vor, eine neue Methode zur Verbesserung der Gradientenmittelung in der verteilten Deep-Learning-Optimierung. Traditionelle Methoden mitteln die Gradienten von Mikrobatchs, um einen Makrobatch-Gradienten zu berechnen, aber dies kann in späteren Trainingsphasen zu orthogonalen oder negativ korrelierten Gradienten führen, was zu Überanpassung führt. GAF reduziert die Gradientenvarianz, indem es die Kosinusdistanz zwischen Mikrogrenzwerten berechnet und widersprüchliche Aktualisierungen vor der Mittelung herausfiltert. Experimente an Bildklassifizierungsbenchmarks wie CIFAR-100 und CIFAR-100N-Fine zeigen, dass GAF die Validierungsgenauigkeit deutlich verbessert, selbst bei kleineren Mikrobatchgrößen, und bis zu 18,2 % im Vergleich zu traditionellen Ansätzen erreicht, während gleichzeitig die Rechenkosten reduziert werden.

(arxiv.org)

KI Gradientenmittelung Robustheit

China baut 2025 Thorium-Schmelzsalzreaktor

Warum Linux immer noch nicht bereit für den Desktop ist