Redis-basierte LLM-Beschleunigung: LMCache bietet 3- bis 10-fache Geschwindigkeitssteigerung
2025-06-28
LMCache ist eine Erweiterung des LLM-Serving-Engines, die die Tail-Latency drastisch reduziert und den Durchsatz erhöht, insbesondere in Szenarien mit langem Kontext. Durch das Cachen von wiederverwendbaren Text-KV-Paaren an verschiedenen Orten (GPU, CPU DRAM, lokale Festplatte) verwendet LMCache diese Caches für jeden wiederverwendeten Text (nicht nur Präfixe) in jeder Serving-Instanz wieder. Dies spart wertvolle GPU-Zyklen und minimiert die Antwortverzögerung des Benutzers. In Kombination mit vLLM erzielt LMCache eine 3- bis 10-fache Reduzierung der Latenz und der GPU-Zyklen in zahlreichen LLM-Anwendungsfällen, darunter mehrstufige QA und RAG. Testen Sie es mit vorkonfigurierten vLLM-Docker-Images!
KI