Tokasaurus: Eine neue LLM-Inferenz-Engine für High-Throughput-Workloads

2025-06-05
Tokasaurus: Eine neue LLM-Inferenz-Engine für High-Throughput-Workloads

Forscher der Stanford University haben Tokasaurus veröffentlicht, eine neue LLM-Inferenz-Engine, die für durchsatzintensive Workloads optimiert ist. Für kleine Modelle profitiert Tokasaurus von einem sehr niedrigen CPU-Overhead und der dynamischen Hydragen-Gruppierung, um gemeinsame Präfixe auszunutzen. Für größere Modelle unterstützt Tokasaurus asynchronen Tensor-Parallelismus für GPUs mit NVLink und eine schnelle Implementierung von Pipeline-Parallelismus für GPUs ohne NVLink. Bei durchsatzorientierten Benchmarks kann Tokasaurus vLLM und SGLang um bis zum 3-fachen übertreffen. Diese Engine wurde für die effiziente Verarbeitung sowohl großer als auch kleiner Modelle entwickelt und bietet erhebliche Performance-Vorteile.