تسريع نماذج اللغات الكبيرة باستخدام Redis: LMCache يوفر زيادة في السرعة من 3 إلى 10 أضعاف
LMCache عبارة عن امتداد لمحرك خدمة نماذج اللغات الكبيرة (LLM) مصمم لتقليل زمن الوصول بشكل كبير وزيادة الإنتاجية، خاصة في سيناريوهات السياق الطويل. من خلال تخزين أزواج القيم الرئيسية للنصوص القابلة لإعادة الاستخدام في مواقع متعددة (وحدة معالجة الرسومات، ذاكرة الوصول العشوائي لوحدة المعالجة المركزية، القرص المحلي)، يعيد LMCache استخدام هذه المخازن المؤقتة لأي نص مُعاد استخدامه (ليس فقط البادئات) في أي مثيل خدمة. هذا يوفر دورات وحدة معالجة الرسومات القيّمة ويقلل من تأخير استجابة المستخدم. عند دمجه مع vLLM، يحقق LMCache انخفاضًا من 3 إلى 10 أضعاف في زمن الوصول ودورات وحدة معالجة الرسومات في العديد من حالات استخدام LLM، بما في ذلك أسئلة وأجوبة متعددة الجولات و استرجاع المعلومات بناءً على النصوص ذات الصلة. جربه باستخدام صور Docker vLLM المُعدّة مسبقًا!