Tokasaurus:高スループットワークロードのための新しいLLM推論エンジン

2025-06-05
Tokasaurus:高スループットワークロードのための新しいLLM推論エンジン

スタンフォード大学の研究者たちは、スループット集約型のワークロード向けに最適化された、新しいLLM推論エンジンTokasaurusを発表しました。小型モデルの場合、Tokasaurusは非常に低いCPUオーバーヘッドと動的なHydragenグループ化を利用して、共通プレフィックスを活用します。大型モデルの場合、NVLink搭載GPU向けの非同期テンソル並列処理と、NVLink非搭載GPU向けの高速パイプライン並列処理実装をサポートしています。スループット重視のベンチマークでは、TokasaurusはvLLMおよびSGLangを最大3倍上回る性能を発揮します。このエンジンは、大規模モデルと小型モデルの両方を効率的に処理するように設計されており、大幅な性能向上を実現します。