SGLang:DeepSeek LLMの推論パフォーマンスに匹敵するオープンソース実装
2025-08-29

人気のオープンソース大規模言語モデル(LLM)であるDeepSeekは、優れたパフォーマンスを誇ります。しかし、その巨大なサイズと独自のアーキテクチャ(マルチヘッド潜在的アテンションとエキスパートミックスを使用)のため、大規模な効率的なサービスには高度なシステムが必要です。このブログでは、SGLangを使用してDeepSeekの推論システムのパフォーマンスに匹敵する方法を説明します。Atlas Cloudの12ノード(各ノードに8つのH100 GPUを搭載)で実行される実装では、プリフィルデコードの分離と大規模なエキスパート並列処理(EP)を活用し、2000トークンの入力シーケンスに対して、ノードあたり毎秒52.3kトークンの入力と毎秒22.3kトークンの出力を達成しました。これは、私たちの知る限り、大規模でDeepSeekの報告されたスループットにほぼ匹敵する最初のオープンソース実装であり、公式DeepSeek Chat APIの約5分の1のコストです。
AI