Transformers Eficientes: Mistura de Especialistas com Acesso Disperso (MoE)
As camadas feed-forward em modelos Transformer costumam ser massivas, criando um gargalo de eficiência. A Mistura de Especialistas com Acesso Disperso (MoE) oferece uma solução elegante. O MoE decompõe a grande camada feed-forward em várias redes menores de "especialistas" e usa um roteador para selecionar o subconjunto ideal de especialistas para o cálculo de cada token, reduzindo significativamente o custo computacional e melhorando a eficiência. Esta postagem detalha o funcionamento do MoE, fornece uma implementação NumPy e discute questões-chave como o balanceamento de carga dos especialistas.
Leia mais