Softmax: Para Sempre? Uma Imersão Profunda nas Funções Log-Harmônicas
Dez anos atrás, ao ministrar um curso de PLN, o autor foi questionado por um aluno sobre alternativas ao softmax. Um artigo recente propõe uma função log-harmônica como substituição, motivando uma investigação mais profunda. O autor analisa as derivadas parciais de ambos, softmax e a função log-harmônica, revelando que o gradiente do softmax é bem-comportado e interpretável, enquanto o gradiente da função log-harmônica apresenta singularidade próximo à origem, potencialmente causando dificuldades de treinamento. Embora otimizadores poderosos possam superar esses desafios, o autor conclui que a abordagem log-harmônica ainda merece exploração adicional e potenciais melhorias.
Leia mais