SGLang: DeepSeek LLM 추론 성능에 맞먹는 오픈소스 구현

2025-08-29
SGLang: DeepSeek LLM 추론 성능에 맞먹는 오픈소스 구현

인기 있는 오픈소스 대규모 언어 모델(LLM)인 DeepSeek은 인상적인 성능을 자랑합니다. 하지만, 방대한 크기와 고유한 아키텍처(멀티헤드 잠재적 어텐션과 전문가 믹스 사용) 때문에 대규모 효율적인 서비스를 위해서는 정교한 시스템이 필요합니다. 이 블로그에서는 SGLang을 사용하여 DeepSeek의 추론 시스템 성능에 거의 맞먹는 방법을 설명합니다. Atlas Cloud의 12개 노드(각 노드에 8개의 H100 GPU 장착)에서 실행되는 구현에서는 프리필 디코딩 분리 및 대규모 전문가 병렬 처리(EP)를 활용하여 2000토큰 입력 시퀀스에 대해 노드당 초당 52.3k토큰 입력 및 초당 22.3k토큰 출력을 달성했습니다. 이는 저희가 아는 한 대규모에서 DeepSeek의 보고된 처리량에 거의 맞먹는 최초의 오픈소스 구현이며, 공식 DeepSeek Chat API 비용의 약 5분의 1입니다.

AI