Warum sind einige LLMs in der Cloud schnell, aber lokal langsam?
Dieser Artikel untersucht, warum große Sprachmodelle (LLMs), insbesondere Mixture-of-Experts (MoE)-Modelle wie DeepSeek-V3, in der Cloud schnell und kostengünstig zu bedienen sind, aber lokal langsam und teuer zu betreiben sind. Der Schlüssel liegt in der Batch-Inferenz: GPUs sind hervorragend in großen Matrixmultiplikationen, und die Batch-Verarbeitung vieler Benutzeranfragen verbessert den Durchsatz erheblich, erhöht aber die Latenz. MoE-Modelle und Modelle mit vielen Schichten sind besonders auf die Batch-Verarbeitung angewiesen, um Pipeline-Bubbles und eine geringe Auslastung der Experten zu vermeiden. Cloud-Anbieter gleichen Durchsatz und Latenz aus, indem sie die Batch-Größe (Sammelfenster) anpassen, während lokale Ausführungen in der Regel nur eine einzige Anfrage haben, was zu einer sehr geringen GPU-Auslastung führt. Die Effizienz der OpenAI-Dienste könnte auf einer überlegenen Modellarchitektur, cleveren Inferenz-Tricks oder deutlich leistungsstärkeren GPUs beruhen.