Baseten atteint des performances SOTA sur GPT-OSS-120B : Une course contre la montre
En tant que partenaire de lancement du nouveau LLM open source d'OpenAI, Baseten s'est efforcé d'optimiser GPT-OSS-120B pour des performances maximales le jour du lancement. Ils ont tiré parti de leur pile d'inférence flexible, en testant avec TensorRT-LLM, vLLM et SGLang, avec prise en charge des architectures de GPU Hopper et Blackwell. Les optimisations clés comprenaient le routage avec prise en compte du cache KV et le décodage spéculatif avec Eagle. En priorisant la latence, ils ont choisi le parallélisme des tenseurs et utilisé le backend MoE de TensorRT-LLM. L'équipe a rapidement résolu les bogues de compatibilité et affiné continuellement la configuration du modèle, contribuant à la communauté open source. Les améliorations futures comprendront le décodage spéculatif pour une inférence encore plus rapide.
Lire plus