Adamはもう必要ない:初期化時の学習率スケーリングが全て

2024-12-18

研究者らは、確率的勾配降下法を改良した新しい最適化器SGD-SaIを発表しました。SGD-SaIは、勾配の信号対雑音比に基づいて、異なるパラメータグループに対して初期化時の学習率をスケーリングすることで、訓練の不均衡問題に対処します。AdamWよりもメモリ効率が大幅に向上しており、ImageNet分類やLLM事前学習など、様々なTransformerベースのタスクにおいて、AdamWと同等かそれ以上の性能を達成します。様々なアプリケーションにおける堅牢性と実用性が示されており、魅力的な代替手段となっています。

AI