Sem Mais Adam: Escalonamento da Taxa de Aprendizagem na Inicialização é Tudo o que Você Precisa
2024-12-18
Pesquisadores apresentam SGD-SaI, um novo otimizador que aprimora o método de descida de gradiente estocástico. O SGD-SaI aborda desequilíbrios de treinamento por meio do escalonamento da taxa de aprendizagem na inicialização para diferentes grupos de parâmetros, com base em suas relações sinal-ruído de gradiente. Muito mais eficiente em termos de memória do que o AdamW, o SGD-SaI iguala ou supera o desempenho do AdamW em várias tarefas baseadas em Transformer, incluindo classificação ImageNet e pré-treinamento de LLMs. Sua robustez e praticidade são demonstradas em diversos aplicativos, tornando-o uma alternativa convincente.
IA