llm-d: إطار عمل استنتاجي موزع قائم على Kubernetes لـ LLM

2025-05-20

llm-d هو إطار عمل استنتاجي موزع عالي الأداء قائم على Kubernetes للنماذج اللغوية الكبيرة (LLM)، ويوفر مسارًا مبسطًا لتقديم نماذج LLM على نطاق واسع. يتميز بأسرع وقت لتحقيق القيمة وأداء تنافسي لكل دولار بالنسبة لمعظم النماذج عبر معظم مُسرعات الأجهزة. باستخدام تحسينات الاستنتاج الموزع المتطورة مثل التوجيه المُدرك لـ KV-cache والخدمة المُجزأة، المصممة ومتكاملة مع أدوات تشغيل Kubernetes في Inference Gateway (IGW)، يسمح llm-d للمستخدمين بتشغيل عمليات نشر الذكاء الاصطناعي التوليدي باستخدام حل خدمة مُعَمَّر، عالي الأداء، من طرف إلى طرف. على عكس مناهج التحجيم التقليدية، تم تحسين llm-d خصيصًا للخصائص الفريدة لاستنتاج LLM، مثل الطلبات البطيئة وغير المنتظمة والمكلفة، مما يحقق أداءً متفوقًا. من خلال التوجيه المُدرك للذاكرة التخزينية المؤقتة، وتجزئة المهام، والتحجيم التكيفي، يُحسّن llm-d بشكل كبير الإنتاجية والكفاءة، ويُقلل من زمن الوصول، ويدعم متطلبات متنوعة لجودة الخدمة.

اقرأ المزيد
التطوير