Tokasaurus: Eine neue LLM-Inferenz-Engine für High-Throughput-Workloads

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Tokasaurus: Eine neue LLM-Inferenz-Engine für High-Throughput-Workloads

2025-06-05

Forscher der Stanford University haben Tokasaurus veröffentlicht, eine neue LLM-Inferenz-Engine, die für durchsatzintensive Workloads optimiert ist. Für kleine Modelle profitiert Tokasaurus von einem sehr niedrigen CPU-Overhead und der dynamischen Hydragen-Gruppierung, um gemeinsame Präfixe auszunutzen. Für größere Modelle unterstützt Tokasaurus asynchronen Tensor-Parallelismus für GPUs mit NVLink und eine schnelle Implementierung von Pipeline-Parallelismus für GPUs ohne NVLink. Bei durchsatzorientierten Benchmarks kann Tokasaurus vLLM und SGLang um bis zum 3-fachen übertreffen. Diese Engine wurde für die effiziente Verarbeitung sowohl großer als auch kleiner Modelle entwickelt und bietet erhebliche Performance-Vorteile.

(scalingintelligence.stanford.edu)

KI LLM-Inferenz-Engine High-Throughput

Chinlone: Myanmars Nationalsport kämpft ums Überleben im Konflikt

SkyRoof: Neue Software zur Satellitenverfolgung und SDR-Empfang für Funkamateure