Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

2024-12-18
Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

Forscher stellen SGD-SaI vor, einen neuen Optimierer, der den stochastischen Gradientenabstieg verbessert. SGD-SaI behebt Trainingsungleichgewichte, indem es die Lernrate bei der Initialisierung für verschiedene Parametergruppen skaliert, basierend auf deren Gradienten-Signal-Rausch-Verhältnis. Wesentlich speichereffizienter als AdamW, erreicht SGD-SaI vergleichbare oder überlegene Leistung gegenüber AdamW bei verschiedenen Transformer-basierten Aufgaben, einschließlich ImageNet-Klassifizierung und LLM-Pretraining. Seine Robustheit und Praktikabilität werden in verschiedenen Anwendungen gezeigt, was es zu einer überzeugenden Alternative macht.

KI