SepLLM: Aceleração de inferência para LLMs pela compressão de tokens sem significado
2025-03-06

Modelos de linguagem grandes (LLMs) enfrentam desafios significativos devido às suas enormes demandas computacionais. Pesquisadores descobriram que certos tokens especiais sem significado contribuem desproporcionalmente para as pontuações de atenção. Com base nisso, eles propõem o SepLLM, uma estrutura que acelera a inferência comprimindo segmentos entre esses tokens e descartando os redundantes. Experimentos mostram que o SepLLM consegue uma redução de mais de 50% no cache KV no benchmark GSM8K-CoT com perda de desempenho insignificante usando Llama-3-8B. Em configurações de streaming, o SepLLM lida eficazmente com modelagem de linguagem com até 4 milhões de tokens ou mais.