Sem Mais Adam: Escalonamento da Taxa de Aprendizagem na Inicialização é Tudo o que Você Precisa

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Sem Mais Adam: Escalonamento da Taxa de Aprendizagem na Inicialização é Tudo o que Você Precisa

2024-12-18

Pesquisadores apresentam SGD-SaI, um novo otimizador que aprimora o método de descida de gradiente estocástico. O SGD-SaI aborda desequilíbrios de treinamento por meio do escalonamento da taxa de aprendizagem na inicialização para diferentes grupos de parâmetros, com base em suas relações sinal-ruído de gradiente. Muito mais eficiente em termos de memória do que o AdamW, o SGD-SaI iguala ou supera o desempenho do AdamW em várias tarefas baseadas em Transformer, incluindo classificação ImageNet e pré-treinamento de LLMs. Sua robustez e praticidade são demonstradas em diversos aplicativos, tornando-o uma alternativa convincente.

(arxiv.org)

Otimizando o JSON do Ruby: Parte 1

ImPlot3D: Biblioteca de Plotagem 3D de Modo Imediato de Alto Desempenho Baseada em Dear ImGui