Más Allá del Promedio de Gradientes en la Optimización Paralela: Robustez Mejorada a través del Filtrado de Acuerdo de Gradientes
Este artículo presenta el Filtrado de Acuerdo de Gradientes (FAG), un nuevo método para mejorar el promedio de gradientes en la optimización del aprendizaje profundo distribuido. Los métodos tradicionales promedian los gradientes de micro-batches para calcular un gradiente de macro-batch, pero esto puede llevar a gradientes ortogonales o negativamente correlacionados en las etapas posteriores del entrenamiento, lo que resulta en sobreajuste. El FAG reduce la varianza del gradiente calculando la distancia del coseno entre micro-gradientes y filtrando las actualizaciones conflictivas antes del promedio. Los experimentos en benchmarks de clasificación de imágenes como CIFAR-100 y CIFAR-100N-Fine muestran que el FAG mejora significativamente la precisión de validación, incluso con tamaños de micro-batch más pequeños, logrando hasta un 18,2% de mejora con respecto a los enfoques tradicionales, al tiempo que reduce el costo computacional.