Truques de Cache KV para Modelos de Linguagem Mais Rápidos

A lentidão dos grandes modelos de linguagem (LLMs) na geração de texto decorre da complexidade computacional da autoatenção. Este artigo explora o cache KV e suas técnicas de otimização. O cache KV armazena pares chave-valor para cada token para evitar cálculos redundantes, reduzindo a complexidade de O(n³) para O(n²); no entanto, o consumo de memória permanece substancial. O artigo examina 11 artigos que propõem otimizações: seleção e poda de tokens com base em pontuações de atenção, técnicas de compressão pós-hoc e redesenhos arquitetônicos, como a Atenção Latente Multi-cabeça (MLA). Essas técnicas visam equilibrar o uso de memória e a eficiência computacional, tornando modelos como o ChatGPT mais rápidos e eficientes na geração de texto.