Baseten、GPT-OSS-120BでSOTAパフォーマンスを実現:タイムリミットとの戦い
2025-08-07
OpenAIの新しいオープンソースLLMのローンチパートナーとして、BasetenはGPT-OSS-120Bのローンチ日に最高のパフォーマンスを実現するために奮闘しました。彼らは柔軟な推論スタックを活用し、TensorRT-LLM、vLLM、SGLangでテストを行い、HopperとBlackwellのGPUアーキテクチャをサポートしました。重要な最適化には、KVキャッシュ対応ルーティングとEagleによる推測デコードが含まれていました。レイテンシを優先して、テンソル並列処理を選択し、TensorRT-LLMのMoEバックエンドを使用しました。チームは迅速に互換性の問題を解決し、モデル構成を継続的に改良し、オープンソースコミュニティに貢献しました。将来の改善には、さらに高速な推論のための推測デコードが含まれます。
開発
推論最適化