Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

2024-12-18
Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

Les chercheurs présentent SGD-SaI, un nouvel optimiseur améliorant la descente de gradient stochastique. SGD-SaI traite les déséquilibres d'entraînement en adaptant le taux d'apprentissage à l'initialisation pour différents groupes de paramètres, en fonction de leur rapport signal/bruit du gradient. Bien plus efficace en mémoire qu'AdamW, SGD-SaI égale ou surpasse les performances d'AdamW sur diverses tâches basées sur les Transformers, incluant la classification ImageNet et le pré-entraînement des LLM. Sa robustesse et son aspect pratique sont démontrés dans diverses applications, en faisant une alternative convaincante.

IA