Nano-vLLM:軽量vLLM実装、驚異的な速度
2025-06-23
Nano-vLLMは、約1200行のPythonコードでゼロから構築された、軽量なvLLMの実装です。そのコンパクトさにもかかわらず、元のvLLMに匹敵する推論速度を実現しています。プレフィックスキャッシング、テンソルパラレリズム、Torchコンパイル、CUDAグラフなどの様々な最適化が組み込まれています。`pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`でインストールし、example.pyを参照して使用してください。RTX 4070 Laptop (8GB)とQwen3-0.6Bモデルを使ったベンチマークテストでは、vLLMをわずかに上回るスループットを示しました。
開発
推論速度