SepLLM: Aceleração de inferência para LLMs pela compressão de tokens sem significado

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

SepLLM: Aceleração de inferência para LLMs pela compressão de tokens sem significado

2025-03-06

Modelos de linguagem grandes (LLMs) enfrentam desafios significativos devido às suas enormes demandas computacionais. Pesquisadores descobriram que certos tokens especiais sem significado contribuem desproporcionalmente para as pontuações de atenção. Com base nisso, eles propõem o SepLLM, uma estrutura que acelera a inferência comprimindo segmentos entre esses tokens e descartando os redundantes. Experimentos mostram que o SepLLM consegue uma redução de mais de 50% no cache KV no benchmark GSM8K-CoT com perda de desempenho insignificante usando Llama-3-8B. Em configurações de streaming, o SepLLM lida eficazmente com modelagem de linguagem com até 4 milhões de tokens ou mais.

(sepllm.github.io)

IA Aceleração de Inferência Compressão de Modelo

O apoio de Trump à Lei 'Take It Down' ameaça a liberdade de expressão

llama.cpp em GPUs Intel com IPEX-LLM: Velocidade Aprimorada