SGLang: Implementación de código abierto que iguala el rendimiento del sistema de inferencia del modelo de lenguaje grande DeepSeek

2025-08-29
SGLang: Implementación de código abierto que iguala el rendimiento del sistema de inferencia del modelo de lenguaje grande DeepSeek

DeepSeek, un popular modelo de lenguaje grande (LLM) de código abierto, cuenta con un rendimiento impresionante. Sin embargo, su enorme tamaño y arquitectura única (que utiliza atención latente multi-cabeza y mezcla de expertos) requieren un sistema sofisticado para un servicio eficiente a gran escala. Este blog detalla cómo logramos una paridad casi completa con el rendimiento del sistema de inferencia de DeepSeek utilizando SGLang. Nuestra implementación, que se ejecuta en 12 nodos (cada uno con 8 GPU H100) en la nube Atlas, aprovecha la desagregación de prellenado-decodificación y el paralelismo de expertos a gran escala (EP), alcanzando 52,3k tokens de entrada por segundo y 22,3k tokens de salida por segundo por nodo para secuencias de entrada de 2000 tokens. Hasta donde sabemos, esta es la primera implementación de código abierto que casi iguala el rendimiento informado de DeepSeek a gran escala, a aproximadamente una quinta parte del costo de la API oficial DeepSeek Chat.