Aceleração de LLM com Redis: LMCache oferece aumento de velocidade de 3 a 10 vezes

2025-06-28
Aceleração de LLM com Redis: LMCache oferece aumento de velocidade de 3 a 10 vezes

O LMCache é uma extensão do mecanismo de serviço LLM projetada para reduzir drasticamente a latência de cauda e aumentar a taxa de transferência, especialmente em cenários de contexto longo. Ao armazenar em cache pares de valores-chave de texto reutilizáveis em vários locais (GPU, CPU DRAM, disco local), o LMCache reutiliza esses caches para qualquer texto reutilizado (não apenas prefixos) em qualquer instância de serviço. Isso economiza ciclos de GPU valiosos e minimiza o atraso na resposta do usuário. Quando combinado com o vLLM, o LMCache consegue uma redução de 3 a 10 vezes na latência e nos ciclos de GPU em vários casos de uso de LLM, incluindo QA multirrodadas e RAG. Experimente com imagens Docker vLLM pré-construídas!

IA