Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Tokasaurus: Un nuevo motor de inferencia LLM para alto rendimiento

2025-06-05

Investigadores de la Universidad de Stanford lanzaron Tokasaurus, un nuevo motor de inferencia LLM optimizado para cargas de trabajo intensivas en rendimiento. Para modelos más pequeños, Tokasaurus aprovecha una sobrecarga de CPU extremadamente baja y la agrupación dinámica Hydragen para explotar prefijos compartidos. Para modelos más grandes, admite paralelismo de tensor asincrónico para GPU con NVLink y una implementación rápida de paralelismo de pipeline para las que no lo tienen. En los puntos de referencia de rendimiento, Tokasaurus supera a vLLM y SGLang hasta en 3x. Este motor está diseñado para el manejo eficiente de modelos grandes y pequeños, ofreciendo ventajas de rendimiento significativas.

(scalingintelligence.stanford.edu)

IA Motor de inferencia LLM