NVIDIA Dynamo: 고처리량, 저지연 생성 AI 추론 프레임워크
2025-03-18
NVIDIA는 다중 노드 분산 환경에서 생성 AI 및 추론 모델을 제공하도록 설계된 고처리량, 저지연 추론 프레임워크인 Dynamo를 발표했습니다. Dynamo는 추론 엔진에 종속되지 않으며(TRT-LLM, vLLM, SGLang 등을 지원), 분산된 프리필 및 디코드 추론, 동적 GPU 스케줄링, LLM 인식 요청 라우팅, 고속 데이터 전송, KV 캐시 오프로딩 등의 기능을 통해 GPU 처리량을 극대화하고 지연 시간을 최소화합니다. 성능을 위해 Rust로, 확장성을 위해 Python으로 구축되었으며 완전히 오픈 소스입니다.
AI
추론 프레임워크