Por que LLMs falham catastroficamente em conversas longas: Sumidouros de atenção e StreamingLLM
Pesquisadores descobriram por que grandes modelos de linguagem (LLMs) falham catastroficamente em conversas longas: remover tokens antigos para economizar memória faz com que os modelos produzam resultados completamente sem sentido. Eles descobriram que os modelos descarregam muita atenção nos primeiros tokens como "sumidouros de atenção" – lugares para estacionar atenção não utilizada, uma vez que a softmax requer que os pesos somem 1. Sua solução, StreamingLLM, simplesmente mantém os 4 primeiros tokens permanentemente enquanto desliza a janela para tudo o mais, permitindo o processamento estável de mais de 4 milhões de tokens em vez de apenas milhares. Esse mecanismo agora está presente no HuggingFace, NVIDIA TensorRT-LLM e nos modelos mais recentes da OpenAI. Os modelos de código aberto da OpenAI também utilizam um mecanismo semelhante de sumidouro de atenção, destacando o impacto prático desta pesquisa.