병렬 최적화에서 기울기 평균화를 넘어서: 기울기 일치 필터링을 통한 강건성 향상
2024-12-30
본 논문에서는 분산 심층 학습 최적화에서 기울기 평균화를 개선하기 위한 새로운 방법인 기울기 일치 필터링(GAF)을 소개합니다. 기존 방법은 미니배치 기울기의 평균을 통해 매크로배치 기울기를 계산하지만, 이는 학습 후반 단계에서 기울기가 직교하거나 음의 상관관계를 갖게 되어 과적합으로 이어집니다. GAF는 미니 기울기 간의 코사인 거리를 계산하고 평균화하기 전에 모순되는 업데이트를 필터링하여 기울기 분산을 줄입니다. CIFAR-100 및 CIFAR-100N-Fine과 같은 이미지 분류 벤치마크에 대한 실험 결과, GAF는 더 작은 미니배치 크기에서도 검증 정확도를 크게 향상시켜 기존 방법에 비해 최대 18.2% 향상을 달성하고 계산 비용을 줄이는 것을 보여줍니다.