Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Tokasaurus: Un nuevo motor de inferencia LLM para alto rendimiento

2025-06-05

Investigadores de la Universidad de Stanford lanzaron Tokasaurus, un nuevo motor de inferencia LLM optimizado para cargas de trabajo intensivas en rendimiento. Para modelos más pequeños, Tokasaurus aprovecha una sobrecarga de CPU extremadamente baja y la agrupación dinámica Hydragen para explotar prefijos compartidos. Para modelos más grandes, admite paralelismo de tensor asincrónico para GPU con NVLink y una implementación rápida de paralelismo de pipeline para las que no lo tienen. En los puntos de referencia de rendimiento, Tokasaurus supera a vLLM y SGLang hasta en 3x. Este motor está diseñado para el manejo eficiente de modelos grandes y pequeños, ofreciendo ventajas de rendimiento significativas.

(scalingintelligence.stanford.edu)

IA Motor de inferencia LLM