Nano-vLLM: Implementação Leve de vLLM com Velocidade Impressionante
2025-06-23
Nano-vLLM é uma implementação leve do vLLM, construída do zero em aproximadamente 1200 linhas de código Python. Apesar do seu tamanho reduzido, atinge velocidades de inferência comparáveis ao vLLM original. Incorpora várias otimizações, como cache de prefixo, paralelismo de tensor, compilação Torch e gráficos CUDA. Instale via `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git` e consulte example.py para uso. Benchmarks em um laptop RTX 4070 (8 GB) com o modelo Qwen3-0.6B mostram uma taxa de transferência ligeiramente superior ao vLLM.
Desenvolvimento
velocidade de inferência