Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

2024-12-18

Les chercheurs présentent SGD-SaI, un nouvel optimiseur améliorant la descente de gradient stochastique. SGD-SaI traite les déséquilibres d'entraînement en adaptant le taux d'apprentissage à l'initialisation pour différents groupes de paramètres, en fonction de leur rapport signal/bruit du gradient. Bien plus efficace en mémoire qu'AdamW, SGD-SaI égale ou surpasse les performances d'AdamW sur diverses tâches basées sur les Transformers, incluant la classification ImageNet et le pré-entraînement des LLM. Sa robustesse et son aspect pratique sont démontrés dans diverses applications, en faisant une alternative convaincante.

(arxiv.org)

Optimisation du JSON Ruby : Partie 1

ImPlot3D : Une bibliothèque de tracé 3D en mode immédiat hautes performances basée sur Dear ImGui