Nano-vLLM: Eine leichte vLLM-Implementierung mit erstaunlicher Geschwindigkeit
2025-06-23
Nano-vLLM ist eine leichtgewichtige Implementierung von vLLM, die in etwa 1200 Zeilen Python-Code von Grund auf neu erstellt wurde. Trotz seiner geringen Größe erreicht es Inferenzgeschwindigkeiten, die mit dem ursprünglichen vLLM vergleichbar sind. Es enthält verschiedene Optimierungen wie Prefix-Caching, Tensor-Parallelisierung, Torch-Kompilierung und CUDA-Graphen. Installation über `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`; Beispielanwendung in example.py. Benchmarks auf einem RTX 4070 Laptop (8 GB) mit dem Qwen3-0.6B Modell zeigen einen etwas höheren Durchsatz als vLLM.
Entwicklung
Inferenzgeschwindigkeit