Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

2024-12-18

Forscher stellen SGD-SaI vor, einen neuen Optimierer, der den stochastischen Gradientenabstieg verbessert. SGD-SaI behebt Trainingsungleichgewichte, indem es die Lernrate bei der Initialisierung für verschiedene Parametergruppen skaliert, basierend auf deren Gradienten-Signal-Rausch-Verhältnis. Wesentlich speichereffizienter als AdamW, erreicht SGD-SaI vergleichbare oder überlegene Leistung gegenüber AdamW bei verschiedenen Transformer-basierten Aufgaben, einschließlich ImageNet-Klassifizierung und LLM-Pretraining. Seine Robustheit und Praktikabilität werden in verschiedenen Anwendungen gezeigt, was es zu einer überzeugenden Alternative macht.

(arxiv.org)

Optimierung von Rubys JSON: Teil 1

ImPlot3D: Eine Hochleistungs-3D-Plotting-Bibliothek im Immediate Mode basierend auf Dear ImGui