De Atenção Multi-Cabeça à Atenção Latente: A Evolução dos Mecanismos de Atenção

Este artigo explora a evolução dos mecanismos de atenção no processamento de linguagem natural, desde o mecanismo de Atenção Multi-Cabeça (MHA) inicial até variantes mais avançadas, como a Atenção Multi-Cabeça Latente (MHLA). O MHA pondera palavras importantes no contexto calculando vetores de consulta, chave e valor; no entanto, sua complexidade computacional e de memória cresce quadraticamente com o comprimento da sequência. Para solucionar isso, abordagens mais novas, como a MHLA, surgiram, melhorando a velocidade computacional e a escalabilidade sem sacrificar o desempenho – por exemplo, usando cache KV para reduzir cálculos redundantes. O artigo explica claramente os conceitos principais, vantagens e limitações desses mecanismos e suas aplicações em modelos como BERT, RoBERTa e Deepseek.
Leia mais