Se acabó Adam: El escalado de la tasa de aprendizaje en la inicialización es todo lo que necesitas

2024-12-18

Los investigadores presentan SGD-SaI, un nuevo optimizador que mejora el método de descenso de gradiente estocástico. SGD-SaI aborda los desequilibrios de entrenamiento mediante el escalado de la tasa de aprendizaje en la inicialización para diferentes grupos de parámetros, basándose en sus relaciones señal-ruido de gradiente. Mucho más eficiente en memoria que AdamW, SGD-SaI iguala o supera el rendimiento de AdamW en diversas tareas basadas en Transformer, incluyendo la clasificación ImageNet y el preentrenamiento de LLM. Su robustez y practicidad se demuestran en diversas aplicaciones, convirtiéndolo en una alternativa convincente.

IA