Aceleración de LLM con Redis: LMCache ofrece una mejora de velocidad de 3 a 10 veces

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Aceleración de LLM con Redis: LMCache ofrece una mejora de velocidad de 3 a 10 veces

2025-06-28

LMCache es una extensión del motor de servicio LLM diseñada para reducir drásticamente la latencia de cola y aumentar el rendimiento, especialmente en escenarios de contexto largo. Al almacenar en caché pares clave-valor de texto reutilizables en varias ubicaciones (GPU, CPU DRAM, disco local), LMCache reutiliza estos cachés para cualquier texto reutilizado (no solo prefijos) en cualquier instancia de servicio. Esto ahorra valiosos ciclos de GPU y minimiza el retraso en la respuesta del usuario. Cuando se combina con vLLM, LMCache logra una reducción de 3 a 10 veces en la latencia y los ciclos de GPU en numerosos casos de uso de LLM, incluyendo QA multironda y RAG. ¡Pruébalo con las imágenes Docker vLLM preconstruidas!

(github.com)

Equipo de pregrado ejecuta Xv6 en una CPU casera

¿Cómo sabe secretamente tu sitio web favorito si estás navegando en transporte público o en la cama?