Tokasaurus: Un nuevo motor de inferencia LLM para alto rendimiento

2025-06-05
Tokasaurus: Un nuevo motor de inferencia LLM para alto rendimiento

Investigadores de la Universidad de Stanford lanzaron Tokasaurus, un nuevo motor de inferencia LLM optimizado para cargas de trabajo intensivas en rendimiento. Para modelos más pequeños, Tokasaurus aprovecha una sobrecarga de CPU extremadamente baja y la agrupación dinámica Hydragen para explotar prefijos compartidos. Para modelos más grandes, admite paralelismo de tensor asincrónico para GPU con NVLink y una implementación rápida de paralelismo de pipeline para las que no lo tienen. En los puntos de referencia de rendimiento, Tokasaurus supera a vLLM y SGLang hasta en 3x. Este motor está diseñado para el manejo eficiente de modelos grandes y pequeños, ofreciendo ventajas de rendimiento significativas.