Nano-vLLM: 놀라운 속도를 자랑하는 경량 vLLM 구현

2025-06-23

Nano-vLLM은 약 1200줄의 Python 코드로 처음부터 구축된 경량 vLLM 구현입니다. 크기가 작음에도 불구하고 원래 vLLM과 비교할 만한 추론 속도를 달성합니다. 접두사 캐싱, 텐서 병렬 처리, Torch 컴파일, CUDA 그래프 등 다양한 최적화 기능이 통합되어 있습니다. `pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`을 통해 설치하고 example.py를 참조하여 사용하십시오. RTX 4070 Laptop (8GB) 및 Qwen3-0.6B 모델을 사용한 벤치마크 테스트에서 vLLM보다 약간 높은 처리량을 보였습니다.

(github.com)

개발 추론 속도

고전 신성 발견: ASASSN-25cm의 분광학적 확인

Ubuntu, 성능 향상을 위해 Intel 그래픽 보안 완화 조치 비활성화 예정