SGLang: Eine Open-Source-Implementierung, die die Inferenzleistung des DeepSeek LLM erreicht
DeepSeek, ein beliebtes Open-Source-Large Language Model (LLM), bietet eine beeindruckende Leistung. Aufgrund seiner enormen Größe und seiner einzigartigen Architektur (mit Multi-Head Latent Attention und Mixture of Experts) benötigt es jedoch ein ausgefeiltes System für effizientes Serving im großen Maßstab. Dieser Blog beschreibt, wie wir mit SGLang eine nahezu gleichwertige Leistung zum Inferenzsystem von DeepSeek erzielt haben. Unsere Implementierung läuft auf 12 Knoten (jeweils mit 8 H100 GPUs) in der Atlas Cloud und nutzt die Prefill-Decode-Disaggregation und den groß angelegten Expert Parallelism (EP), wodurch 52.300 Eingabe-Tokens pro Sekunde und 22.300 Ausgabe-Tokens pro Sekunde pro Knoten für 2000-Token-Eingabesequenzen erreicht werden. Dies ist nach unserem Wissen die erste Open-Source-Implementierung, die dem gemeldeten Durchsatz von DeepSeek im großen Maßstab fast entspricht, zu etwa einem Fünftel der Kosten der offiziellen DeepSeek Chat API.