Baseten erreicht SOTA-Performance mit GPT-OSS-120B: Ein Wettlauf gegen die Zeit
Als Launch-Partner für OpenAIs neues Open-Source-LLM hat Baseten daran gearbeitet, GPT-OSS-120B am Tag des Releases für maximale Leistung zu optimieren. Sie nutzten ihren flexiblen Inferenz-Stack und testeten mit TensorRT-LLM, vLLM und SGLang, wobei sowohl Hopper- als auch Blackwell-GPU-Architekturen unterstützt wurden. Wichtige Optimierungen waren KV-Cache-aware Routing und spekulative Decodierung mit Eagle. Mit dem Fokus auf Latenz wählten sie Tensor-Parallelität und nutzten das MoE-Backend von TensorRT-LLM. Das Team behob schnell Kompatibilitätsprobleme und verfeinerte die Modellkonfiguration kontinuierlich, wobei es Beiträge zur Open-Source-Community leistete. Zukünftige Verbesserungen werden spekulative Decodierung für noch schnellere Inferenz beinhalten.
Mehr lesen