Tokasaurus : Un nouveau moteur d'inférence LLM pour les charges de travail à haut débit

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-06-05

Des chercheurs de l'Université de Stanford ont publié Tokasaurus, un nouveau moteur d'inférence LLM optimisé pour les charges de travail gourmandes en débit. Pour les petits modèles, Tokasaurus tire parti d'une surcharge CPU extrêmement faible et du groupement dynamique Hydragen pour exploiter les préfixes partagés. Pour les grands modèles, il prend en charge le parallélisme de tenseurs asynchrone pour les GPU équipés de NVLink et une implémentation rapide du parallélisme de pipeline pour ceux qui n'en ont pas. Sur les benchmarks de débit, Tokasaurus surpasse vLLM et SGLang jusqu'à 3x. Ce moteur est conçu pour la gestion efficace des modèles grands et petits, offrant des avantages de performance significatifs.