Baseten logra rendimiento SOTA en GPT-OSS-120B: Una carrera contrarreloj
Como socio de lanzamiento del nuevo LLM de código abierto de OpenAI, Baseten se apresuró a optimizar GPT-OSS-120B para un rendimiento máximo el día del lanzamiento. Aprovecharon su pila de inferencia flexible, probando con TensorRT-LLM, vLLM y SGLang, con soporte para arquitecturas de GPU Hopper y Blackwell. Las optimizaciones clave incluyeron enrutamiento con conocimiento de caché KV y decodificación especulativa con Eagle. Priorizando la latencia, eligieron el paralelismo de tensores y utilizaron el backend MoE de TensorRT-LLM. El equipo solucionó rápidamente problemas de compatibilidad y refinó continuamente la configuración del modelo, contribuyendo de vuelta a la comunidad de código abierto. Las mejoras futuras incluirán la decodificación especulativa para una inferencia aún más rápida.
Leer más