Nano-vLLM: تطبيق خفيف الوزن لـ vLLM بسرعة مذهلة
2025-06-23
Nano-vLLM هو تطبيق خفيف الوزن لـ vLLM، تم إنشاؤه من الصفر في حوالي 1200 سطر من أكواد بايثون. على الرغم من صغر حجمه، إلا أنه يحقق سرعات استنتاجية قابلة للمقارنة مع vLLM الأصلي. وهو يتضمن العديد من التحسينات مثل تخزين المؤقت للبادئات، والتوازي المتوتر، وترجمة Torch، ورسوميات CUDA. قم بالتثبيت عبر `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`، وقم بالرجوع إلى example.py للاستخدام. تُظهر المقاييس القياسية على جهاز كمبيوتر محمول RTX 4070 (8 جيجابايت) مع نموذج Qwen3-0.6B معدل إنتاجية أعلى قليلاً من vLLM.
التطوير
سرعة الاستنتاج