Além da Média de Gradientes em Otimização Paralela: Robustez Aprimorada por meio de Filtragem de Concordância de Gradientes
Este artigo apresenta a Filtragem de Concordância de Gradientes (FCG), um novo método para melhorar a média de gradientes na otimização de aprendizado profundo distribuído. Métodos tradicionais somam gradientes de microbatches para calcular um gradiente de macrobatch, mas isso pode levar a gradientes ortogonais ou negativamente correlacionados nos estágios posteriores do treinamento, resultando em overfitting. A FCG reduz a variância do gradiente calculando a distância do cosseno entre microgradientes e filtrando atualizações conflitantes antes da média. Experimentos em benchmarks de classificação de imagens como CIFAR-100 e CIFAR-100N-Fine mostram que a FCG melhora significativamente a precisão de validação, mesmo com tamanhos de microbatch menores, alcançando até 18,2% de melhoria em relação às abordagens tradicionais, ao mesmo tempo em que reduz o custo computacional.