SGLang: Implementação de código aberto que iguala o desempenho do sistema de inferência do modelo de linguagem amplo DeepSeek

2025-08-29
SGLang: Implementação de código aberto que iguala o desempenho do sistema de inferência do modelo de linguagem amplo DeepSeek

O DeepSeek, um popular modelo de linguagem amplo (LLM) de código aberto, possui um desempenho impressionante. No entanto, seu tamanho massivo e arquitetura exclusiva (usando Atenção Latente Multi-cabeça e Mistura de Especialistas) exigem um sistema sofisticado para servir de forma eficiente em larga escala. Este blog detalha como alcançamos quase paridade com o desempenho do sistema de inferência do DeepSeek usando o SGLang. Nossa implementação, rodando em 12 nós (cada um com 8 GPUs H100) na nuvem Atlas, utiliza desagregação de preenchimento prévio-decodificação e paralelismo de especialistas em larga escala (EP), atingindo 52,3k tokens de entrada/segundo e 22,3k tokens de saída/segundo por nó para sequências de entrada de 2000 tokens. Este é, até onde sabemos, a primeira implementação de código aberto a quase igualar a taxa de transferência relatada do DeepSeek em larga escala, a aproximadamente um quinto do custo da API oficial DeepSeek Chat.

Leia mais