llm-d: الاستنتاج الموزع الأصلي في Kubernetes على نطاق واسع

2025-05-21
llm-d: الاستنتاج الموزع الأصلي في Kubernetes على نطاق واسع

llm-d عبارة عن مجموعة خدمة استنتاج موزعة أصلية في Kubernetes مصممة لتقديم نماذج اللغات الكبيرة بكفاءة واقتصادية. فهي تستفيد من تحسينات الاستنتاج الموزع المتطورة، مثل التوجيه الذي يعتمد على ذاكرة التخزين المؤقت KV والخدمة المفككة، والتي تم دمجها مع أدوات التشغيل الخاصة بـ Kubernetes في Inference Gateway (IGW). تم بناء llm-d على تقنيات مفتوحة المصدر مثل vLLM و Kubernetes و Inference Gateway، وهي تتميز بجدولة قابلة للتخصيص، وخدمة وتخزين مؤقت مفككين، وتخطط للتحجيم التلقائي الذي يعتمد على الأجهزة، وحمل العمل، وحركة المرور. يمكن تثبيتها بسهولة عبر مخطط Helm، ويمكن للمستخدمين أيضًا تجربة مكونات فردية.