SGLang：DeepSeek LLMの推論パフォーマンスに匹敵するオープンソース実装

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-08-29

人気のオープンソース大規模言語モデル（LLM）であるDeepSeekは、優れたパフォーマンスを誇ります。しかし、その巨大なサイズと独自のアーキテクチャ（マルチヘッド潜在的アテンションとエキスパートミックスを使用）のため、大規模な効率的なサービスには高度なシステムが必要です。このブログでは、SGLangを使用してDeepSeekの推論システムのパフォーマンスに匹敵する方法を説明します。Atlas Cloudの12ノード（各ノードに8つのH100 GPUを搭載）で実行される実装では、プリフィルデコードの分離と大規模なエキスパート並列処理（EP）を活用し、2000トークンの入力シーケンスに対して、ノードあたり毎秒52.3kトークンの入力と毎秒22.3kトークンの出力を達成しました。これは、私たちの知る限り、大規模でDeepSeekの報告されたスループットにほぼ匹敵する最初のオープンソース実装であり、公式DeepSeek Chat APIの約5分の1のコストです。