Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Baseten logra rendimiento SOTA en GPT-OSS-120B: Una carrera contrarreloj

2025-08-07

Como socio de lanzamiento del nuevo LLM de código abierto de OpenAI, Baseten se apresuró a optimizar GPT-OSS-120B para un rendimiento máximo el día del lanzamiento. Aprovecharon su pila de inferencia flexible, probando con TensorRT-LLM, vLLM y SGLang, con soporte para arquitecturas de GPU Hopper y Blackwell. Las optimizaciones clave incluyeron enrutamiento con conocimiento de caché KV y decodificación especulativa con Eagle. Priorizando la latencia, eligieron el paralelismo de tensores y utilizaron el backend MoE de TensorRT-LLM. El equipo solucionó rápidamente problemas de compatibilidad y refinó continuamente la configuración del modelo, contribuyendo de vuelta a la comunidad de código abierto. Las mejoras futuras incluirán la decodificación especulativa para una inferencia aún más rápida.

(www.baseten.co)

Desarrollo Optimización de Inferencia