Tokasaurus : Un nouveau moteur d'inférence LLM pour les charges de travail à haut débit

2025-06-05
Tokasaurus : Un nouveau moteur d'inférence LLM pour les charges de travail à haut débit

Des chercheurs de l'Université de Stanford ont publié Tokasaurus, un nouveau moteur d'inférence LLM optimisé pour les charges de travail gourmandes en débit. Pour les petits modèles, Tokasaurus tire parti d'une surcharge CPU extrêmement faible et du groupement dynamique Hydragen pour exploiter les préfixes partagés. Pour les grands modèles, il prend en charge le parallélisme de tenseurs asynchrone pour les GPU équipés de NVLink et une implémentation rapide du parallélisme de pipeline pour ceux qui n'en ont pas. Sur les benchmarks de débit, Tokasaurus surpasse vLLM et SGLang jusqu'à 3x. Ce moteur est conçu pour la gestion efficace des modèles grands et petits, offrant des avantages de performance significatifs.