Adam은 더 이상 필요 없다: 초기화 시 학습률 조정만으로 충분하다

2024-12-18

연구자들은 확률적 경사 하강법을 개선한 새로운 최적화기 SGD-SaI를 발표했습니다. SGD-SaI는 기울기의 신호 대 잡음비를 기반으로 서로 다른 매개변수 그룹에 대해 초기화 시 학습률을 조정하여 훈련 불균형 문제를 해결합니다. AdamW보다 메모리 효율이 훨씬 높으며, ImageNet 분류 및 LLM 사전 학습 등 다양한 Transformer 기반 작업에서 AdamW와 동등하거나 더 나은 성능을 달성합니다. 다양한 애플리케이션에서의 견고성과 실용성이 입증되었으며, 매력적인 대안이 되고 있습니다.

AI