Tokasaurus: 높은 처리량 작업 부하를 위한 새로운 LLM 추론 엔진
2025-06-05
스탠포드 대학교 연구원들은 처리량 집약적인 작업 부하에 최적화된 새로운 LLM 추론 엔진인 Tokasaurus를 발표했습니다. 소형 모델의 경우 Tokasaurus는 매우 낮은 CPU 오버헤드와 동적인 Hydragen 그룹화를 활용하여 공유 접두어를 활용합니다. 대형 모델의 경우 NVLink가 장착된 GPU를 위한 비동기 텐서 병렬 처리와 NVLink가 없는 GPU를 위한 고속 파이프라인 병렬 처리 구현을 지원합니다. 처리량 중심 벤치마크에서 Tokasaurus는 vLLM 및 SGLang보다 최대 3배 더 나은 성능을 발휘합니다. 이 엔진은 대규모 모델과 소형 모델을 모두 효율적으로 처리하도록 설계되었으며, 상당한 성능 향상을 제공합니다.
더 보기