Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

SGLang: Implementação de código aberto que iguala o desempenho do sistema de inferência do modelo de linguagem amplo DeepSeek

2025-08-29

O DeepSeek, um popular modelo de linguagem amplo (LLM) de código aberto, possui um desempenho impressionante. No entanto, seu tamanho massivo e arquitetura exclusiva (usando Atenção Latente Multi-cabeça e Mistura de Especialistas) exigem um sistema sofisticado para servir de forma eficiente em larga escala. Este blog detalha como alcançamos quase paridade com o desempenho do sistema de inferência do DeepSeek usando o SGLang. Nossa implementação, rodando em 12 nós (cada um com 8 GPUs H100) na nuvem Atlas, utiliza desagregação de preenchimento prévio-decodificação e paralelismo de especialistas em larga escala (EP), atingindo 52,3k tokens de entrada/segundo e 22,3k tokens de saída/segundo por nó para sequências de entrada de 2000 tokens. Este é, até onde sabemos, a primeira implementação de código aberto a quase igualar a taxa de transferência relatada do DeepSeek em larga escala, a aproximadamente um quinto do custo da API oficial DeepSeek Chat.