Além da Atenção: Avanços Recentes em Arquiteturas de Transformadores Eficientes
Este artigo explora vários avanços importantes em arquiteturas de Transformadores que vão além do mecanismo de atenção original. Essas técnicas se concentram principalmente na redução da complexidade computacional e dos requisitos de memória. Exemplos incluem Atenção de Consulta em Grupo (GQA), que reduz o uso de memória compartilhando projeções de chave/valor; Atenção Latente de Múltiplas Cabeças (MHA), que usa vetores latentes para diminuir a complexidade computacional; Flash Attention, que otimiza a velocidade por meio de um gerenciamento inteligente de memória; e Atenção em Anel (Ring Attention), que utiliza paralelismo de múltiplas GPUs para sequências extremamente longas. Além disso, o artigo abrange pré-normalização, RMSNorm, funções de ativação SwiGLU e métodos de normalização, bem como aquecimento da taxa de aprendizado, programação de cosseno, Mixture of Experts (MoE), previsão de vários tokens e decodificação especulativa. Essas técnicas coletivamente impulsionam os limites dos Transformadores, permitindo que eles processem sequências mais longas e dados de dimensão superior de forma mais eficiente, melhorando em última análise tanto a velocidade quanto o desempenho.