Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Baseten erreicht SOTA-Performance mit GPT-OSS-120B: Ein Wettlauf gegen die Zeit

2025-08-07

Als Launch-Partner für OpenAIs neues Open-Source-LLM hat Baseten daran gearbeitet, GPT-OSS-120B am Tag des Releases für maximale Leistung zu optimieren. Sie nutzten ihren flexiblen Inferenz-Stack und testeten mit TensorRT-LLM, vLLM und SGLang, wobei sowohl Hopper- als auch Blackwell-GPU-Architekturen unterstützt wurden. Wichtige Optimierungen waren KV-Cache-aware Routing und spekulative Decodierung mit Eagle. Mit dem Fokus auf Latenz wählten sie Tensor-Parallelität und nutzten das MoE-Backend von TensorRT-LLM. Das Team behob schnell Kompatibilitätsprobleme und verfeinerte die Modellkonfiguration kontinuierlich, wobei es Beiträge zur Open-Source-Community leistete. Zukünftige Verbesserungen werden spekulative Decodierung für noch schnellere Inferenz beinhalten.

(www.baseten.co)

Entwicklung Inferenzoptimierung