Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Baseten 如何在 GPT-OSS-120B 上实现 SOTA 性能

2025-08-07

Baseten 作为 OpenAI 首个开源 LLM 的发布合作伙伴，在 GPT-OSS-120B 发布当天就实现了领先的性能。文章详细介绍了 Baseten 如何通过灵活的推理栈、多框架测试（TensorRT-LLM、vLLM 和 SGLang）、Hopper 和 Blackwell GPU 架构支持以及各种性能优化（例如 KV 缓存感知路由和 Eagle 预测解码）等步骤，在发布当天就达到业界领先的延迟和吞吐量。他们优先选择张量并行来优化延迟，并利用了 TensorRT-LLM 的 MoE 后端。Baseten 的工程师们不仅快速解决了兼容性问题，还在不断优化模型配置，并积极回馈开源社区。未来，他们还将探索预测解码等技术来进一步提升性能。

(www.baseten.co)

开发