Accélération des LLM avec Redis : LMCache offre une amélioration de vitesse de 3 à 10 fois

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-06-28

LMCache est une extension du moteur de service LLM conçue pour réduire considérablement la latence de queue et augmenter le débit, en particulier dans les scénarios à long contexte. En mettant en cache des paires clé-valeur de texte réutilisables à différents emplacements (GPU, CPU DRAM, disque local), LMCache réutilise ces caches pour tout texte réutilisé (pas seulement les préfixes) dans n'importe quelle instance de service. Cela permet d'économiser de précieux cycles GPU et de minimiser le délai de réponse de l'utilisateur. Combiné à vLLM, LMCache permet une réduction de 3 à 10 fois de la latence et des cycles GPU dans de nombreux cas d'utilisation de LLM, notamment la QA multi-tours et le RAG. Essayez-le avec les images Docker vLLM pré-construites !