Baseten、GPT-OSS-120BでSOTAパフォーマンスを実現：タイムリミットとの戦い

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-08-07

OpenAIの新しいオープンソースLLMのローンチパートナーとして、BasetenはGPT-OSS-120Bのローンチ日に最高のパフォーマンスを実現するために奮闘しました。彼らは柔軟な推論スタックを活用し、TensorRT-LLM、vLLM、SGLangでテストを行い、HopperとBlackwellのGPUアーキテクチャをサポートしました。重要な最適化には、KVキャッシュ対応ルーティングとEagleによる推測デコードが含まれていました。レイテンシを優先して、テンソル並列処理を選択し、TensorRT-LLMのMoEバックエンドを使用しました。チームは迅速に互換性の問題を解決し、モデル構成を継続的に改良し、オープンソースコミュニティに貢献しました。将来の改善には、さらに高速な推論のための推測デコードが含まれます。