Escalonar modelos de linguagem para lidar com sequências de entrada mais longas geralmente requer grandes caches de chave-valor (KV), resultando em grande sobrecarga de memória durante a inferência. Este artigo propõe a Atenção por Produto Tensorial (TPA), um novo mecanismo de atenção que usa decomposições tensoriais para representar consultas, chaves e valores de forma compacta, reduzindo significativamente o tamanho do cache KV durante a inferência. Ao fatorar essas representações em componentes de baixo posto contextuais (fatoração contextual) e integrando-as perfeitamente com RoPE, a TPA melhora a qualidade do modelo mantendo a eficiência de memória. Com base na TPA, os autores introduzem o Transformador de Atenção por Produto Tensorial (T6), uma nova arquitetura de modelo para modelagem de sequência. Uma avaliação empírica extensiva em tarefas de modelagem de linguagem demonstra que o T6 supera os modelos base padrão do Transformer, incluindo MHA, MQA, GQA e MLA, em várias métricas, incluindo perplexidade e uma variedade de benchmarks de avaliação conhecidos. Notavelmente, a eficiência de memória da TPA permite o processamento de sequências significativamente mais longas sob restrições de recursos fixas, abordando um desafio crítico de escalabilidade em modelos de linguagem modernos. O código está disponível.
Leia mais