Redis-basierte LLM-Beschleunigung: LMCache bietet 3- bis 10-fache Geschwindigkeitssteigerung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Redis-basierte LLM-Beschleunigung: LMCache bietet 3- bis 10-fache Geschwindigkeitssteigerung

2025-06-28

LMCache ist eine Erweiterung des LLM-Serving-Engines, die die Tail-Latency drastisch reduziert und den Durchsatz erhöht, insbesondere in Szenarien mit langem Kontext. Durch das Cachen von wiederverwendbaren Text-KV-Paaren an verschiedenen Orten (GPU, CPU DRAM, lokale Festplatte) verwendet LMCache diese Caches für jeden wiederverwendeten Text (nicht nur Präfixe) in jeder Serving-Instanz wieder. Dies spart wertvolle GPU-Zyklen und minimiert die Antwortverzögerung des Benutzers. In Kombination mit vLLM erzielt LMCache eine 3- bis 10-fache Reduzierung der Latenz und der GPU-Zyklen in zahlreichen LLM-Anwendungsfällen, darunter mehrstufige QA und RAG. Testen Sie es mit vorkonfigurierten vLLM-Docker-Images!

(github.com)

Studenten-Team lässt Xv6 auf selbstgebautem CPU laufen

Wie Ihre Lieblingswebsite heimlich weiß, ob Sie im öffentlichen Nahverkehr oder im Bett surfen