Nano-vLLM : Une implémentation légère de vLLM incroyablement rapide

2025-06-23
Nano-vLLM : Une implémentation légère de vLLM incroyablement rapide

Nano-vLLM est une implémentation légère de vLLM, créée à partir de zéro en environ 1200 lignes de code Python. Malgré sa petite taille, elle atteint des vitesses d'inférence comparables à celles du vLLM original. Elle intègre plusieurs optimisations telles que la mise en cache des préfixes, le parallélisme des tenseurs, la compilation Torch et les graphes CUDA. Installez-la via `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git` et consultez example.py pour son utilisation. Les benchmarks sur un ordinateur portable RTX 4070 (8 GB) avec le modèle Qwen3-0.6B montrent un débit légèrement supérieur à celui de vLLM.

Développement vitesse d'inférence