SGLang: DeepSeek LLM 추론 성능에 맞먹는 오픈소스 구현
2025-08-29
인기 있는 오픈소스 대규모 언어 모델(LLM)인 DeepSeek은 인상적인 성능을 자랑합니다. 하지만, 방대한 크기와 고유한 아키텍처(멀티헤드 잠재적 어텐션과 전문가 믹스 사용) 때문에 대규모 효율적인 서비스를 위해서는 정교한 시스템이 필요합니다. 이 블로그에서는 SGLang을 사용하여 DeepSeek의 추론 시스템 성능에 거의 맞먹는 방법을 설명합니다. Atlas Cloud의 12개 노드(각 노드에 8개의 H100 GPU 장착)에서 실행되는 구현에서는 프리필 디코딩 분리 및 대규모 전문가 병렬 처리(EP)를 활용하여 2000토큰 입력 시퀀스에 대해 노드당 초당 52.3k토큰 입력 및 초당 22.3k토큰 출력을 달성했습니다. 이는 저희가 아는 한 대규모에서 DeepSeek의 보고된 처리량에 거의 맞먹는 최초의 오픈소스 구현이며, 공식 DeepSeek Chat API 비용의 약 5분의 1입니다.
AI