Baseten 如何在 GPT-OSS-120B 上实现 SOTA 性能

2025-08-07
Baseten 如何在 GPT-OSS-120B 上实现 SOTA 性能

Baseten 作为 OpenAI 首个开源 LLM 的发布合作伙伴,在 GPT-OSS-120B 发布当天就实现了领先的性能。文章详细介绍了 Baseten 如何通过灵活的推理栈、多框架测试(TensorRT-LLM、vLLM 和 SGLang)、Hopper 和 Blackwell GPU 架构支持以及各种性能优化(例如 KV 缓存感知路由和 Eagle 预测解码)等步骤,在发布当天就达到业界领先的延迟和吞吐量。他们优先选择张量并行来优化延迟,并利用了 TensorRT-LLM 的 MoE 后端。Baseten 的工程师们不仅快速解决了兼容性问题,还在不断优化模型配置,并积极回馈开源社区。未来,他们还将探索预测解码等技术来进一步提升性能。

阅读更多
开发