NVIDIA Dynamo: إطار عمل الاستدلال عالي الإنتاجية ومنخفض زمن الوصول لـ AI التوليدية
2025-03-18
تقدم NVIDIA إطار عمل Dynamo، وهو إطار عمل استدلال عالي الإنتاجية ومنخفض زمن الوصول، مصمم لخدمة نماذج الذكاء الاصطناعي التوليدية ونماذج الاستدلال في بيئات موزعة متعددة العقد. يدعم Dynamo محركات الاستدلال المختلفة (مثل TRT-LLM و vLLM و SGLang وغيرها)، ويدمج ميزات مثل فصل عملية التعبئة المسبقة وفك التشفير، والجدولة الديناميكية لوحدة معالجة الرسومات، وتوجيه الطلبات المدركة للـ LLM، ونقل البيانات المُسرّع، وإيقاف تشغيل ذاكرة التخزين المؤقت KV، لتعظيم إنتاجية وحدة معالجة الرسومات وتقليل زمن الوصول. تم بناء Dynamo بلغة Rust للأداء وبلغة Python للتوسع، وهو مفتوح المصدر بالكامل.
الذكاء الاصطناعي
إطار عمل الاستدلال