Além da Atenção: Avanços Recentes em Arquiteturas de Transformadores Eficientes

2025-05-23

Este artigo explora vários avanços importantes em arquiteturas de Transformadores que vão além do mecanismo de atenção original. Essas técnicas se concentram principalmente na redução da complexidade computacional e dos requisitos de memória. Exemplos incluem Atenção de Consulta em Grupo (GQA), que reduz o uso de memória compartilhando projeções de chave/valor; Atenção Latente de Múltiplas Cabeças (MHA), que usa vetores latentes para diminuir a complexidade computacional; Flash Attention, que otimiza a velocidade por meio de um gerenciamento inteligente de memória; e Atenção em Anel (Ring Attention), que utiliza paralelismo de múltiplas GPUs para sequências extremamente longas. Além disso, o artigo abrange pré-normalização, RMSNorm, funções de ativação SwiGLU e métodos de normalização, bem como aquecimento da taxa de aprendizado, programação de cosseno, Mixture of Experts (MoE), previsão de vários tokens e decodificação especulativa. Essas técnicas coletivamente impulsionam os limites dos Transformadores, permitindo que eles processem sequências mais longas e dados de dimensão superior de forma mais eficiente, melhorando em última análise tanto a velocidade quanto o desempenho.

Desenvolvimento