SGLang:高效运行DeepSeek大语言模型的开源实现
2025-08-29
开源大语言模型DeepSeek因其强大的性能而备受赞誉,但其庞大的规模和独特的架构(使用MLA和MoE)需要先进的系统才能高效地进行大规模服务。本文介绍了如何利用SGLang与DeepSeek的推理系统性能相匹配。通过在Atlas云上使用12个节点(每个节点配备8个H100 GPU),并运用预填充-解码解耦和大型专家并行化(EP)等技术,实现了每秒52.3k个输入token和每秒22.3k个输出token的处理速度。这是第一个在开源领域实现接近DeepSeek官方博客报告的吞吐量的方案,成本仅为官方DeepSeek Chat API的五分之一。
阅读更多
AI