Se acabó Adam: El escalado de la tasa de aprendizaje en la inicialización es todo lo que necesitas

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Se acabó Adam: El escalado de la tasa de aprendizaje en la inicialización es todo lo que necesitas

2024-12-18

Los investigadores presentan SGD-SaI, un nuevo optimizador que mejora el método de descenso de gradiente estocástico. SGD-SaI aborda los desequilibrios de entrenamiento mediante el escalado de la tasa de aprendizaje en la inicialización para diferentes grupos de parámetros, basándose en sus relaciones señal-ruido de gradiente. Mucho más eficiente en memoria que AdamW, SGD-SaI iguala o supera el rendimiento de AdamW en diversas tareas basadas en Transformer, incluyendo la clasificación ImageNet y el preentrenamiento de LLM. Su robustez y practicidad se demuestran en diversas aplicaciones, convirtiéndolo en una alternativa convincente.

(arxiv.org)

Optimizando el JSON de Ruby: Parte 1

ImPlot3D: Biblioteca de Trazado 3D de Modo Inmediato de Alto Rendimiento Basada en Dear ImGui