Aceleração de LLM com Redis: LMCache oferece aumento de velocidade de 3 a 10 vezes

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Aceleração de LLM com Redis: LMCache oferece aumento de velocidade de 3 a 10 vezes

2025-06-28

O LMCache é uma extensão do mecanismo de serviço LLM projetada para reduzir drasticamente a latência de cauda e aumentar a taxa de transferência, especialmente em cenários de contexto longo. Ao armazenar em cache pares de valores-chave de texto reutilizáveis em vários locais (GPU, CPU DRAM, disco local), o LMCache reutiliza esses caches para qualquer texto reutilizado (não apenas prefixos) em qualquer instância de serviço. Isso economiza ciclos de GPU valiosos e minimiza o atraso na resposta do usuário. Quando combinado com o vLLM, o LMCache consegue uma redução de 3 a 10 vezes na latência e nos ciclos de GPU em vários casos de uso de LLM, incluindo QA multirrodadas e RAG. Experimente com imagens Docker vLLM pré-construídas!

(github.com)

Equipe de graduação executa Xv6 em uma CPU caseira

Como seu site favorito sabe secretamente se você está navegando no transporte público ou na cama?