Accélération des LLM avec Redis : LMCache offre une amélioration de vitesse de 3 à 10 fois

2025-06-28
Accélération des LLM avec Redis : LMCache offre une amélioration de vitesse de 3 à 10 fois

LMCache est une extension du moteur de service LLM conçue pour réduire considérablement la latence de queue et augmenter le débit, en particulier dans les scénarios à long contexte. En mettant en cache des paires clé-valeur de texte réutilisables à différents emplacements (GPU, CPU DRAM, disque local), LMCache réutilise ces caches pour tout texte réutilisé (pas seulement les préfixes) dans n'importe quelle instance de service. Cela permet d'économiser de précieux cycles GPU et de minimiser le délai de réponse de l'utilisateur. Combiné à vLLM, LMCache permet une réduction de 3 à 10 fois de la latence et des cycles GPU dans de nombreux cas d'utilisation de LLM, notamment la QA multi-tours et le RAG. Essayez-le avec les images Docker vLLM pré-construites !