Nano-vLLM: تطبيق خفيف الوزن لـ vLLM بسرعة مذهلة

2025-06-23
Nano-vLLM: تطبيق خفيف الوزن لـ vLLM بسرعة مذهلة

Nano-vLLM هو تطبيق خفيف الوزن لـ vLLM، تم إنشاؤه من الصفر في حوالي 1200 سطر من أكواد بايثون. على الرغم من صغر حجمه، إلا أنه يحقق سرعات استنتاجية قابلة للمقارنة مع vLLM الأصلي. وهو يتضمن العديد من التحسينات مثل تخزين المؤقت للبادئات، والتوازي المتوتر، وترجمة Torch، ورسوميات CUDA. قم بالتثبيت عبر `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`، وقم بالرجوع إلى example.py للاستخدام. تُظهر المقاييس القياسية على جهاز كمبيوتر محمول RTX 4070 (8 جيجابايت) مع نموذج Qwen3-0.6B معدل إنتاجية أعلى قليلاً من vLLM.