SGLang : une implémentation open source atteignant les performances du système d’inférence du modèle linguistique large DeepSeek
DeepSeek, un modèle linguistique large (LLM) open source populaire, affiche des performances impressionnantes. Cependant, sa taille massive et son architecture unique (utilisant l’attention latente multi-têtes et le mélange d’experts) nécessitent un système sophistiqué pour un service efficace à grande échelle. Ce blog explique comment nous avons atteint une quasi-parité avec les performances du système d’inférence de DeepSeek en utilisant SGLang. Notre implémentation, fonctionnant sur 12 nœuds (chacun équipé de 8 GPU H100) dans le cloud Atlas, tire parti de la désagrégation préremplissage-décodage et du parallélisme d’experts à grande échelle (EP), atteignant 52 300 jetons d’entrée par seconde et 22 300 jetons de sortie par seconde par nœud pour des séquences d’entrée de 2000 jetons. À notre connaissance, il s’agit de la première implémentation open source à presque égaler le débit rapporté de DeepSeek à grande échelle, pour environ un cinquième du coût de l’API DeepSeek Chat officielle.