Tokasaurus: Un nuevo motor de inferencia LLM para alto rendimiento
2025-06-05
Investigadores de la Universidad de Stanford lanzaron Tokasaurus, un nuevo motor de inferencia LLM optimizado para cargas de trabajo intensivas en rendimiento. Para modelos más pequeños, Tokasaurus aprovecha una sobrecarga de CPU extremadamente baja y la agrupación dinámica Hydragen para explotar prefijos compartidos. Para modelos más grandes, admite paralelismo de tensor asincrónico para GPU con NVLink y una implementación rápida de paralelismo de pipeline para las que no lo tienen. En los puntos de referencia de rendimiento, Tokasaurus supera a vLLM y SGLang hasta en 3x. Este motor está diseñado para el manejo eficiente de modelos grandes y pequeños, ofreciendo ventajas de rendimiento significativas.
Leer más