Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Megakernels: Latenz bei LLM-Inferenz knacken

2025-05-28

Um die Geschwindigkeit großer Sprachmodelle (LLMs) in Anwendungen mit niedriger Latenz wie Chatbots zu erhöhen, haben Forscher eine „Megakernel“-Technik entwickelt. Dabei wird der Vorwärtsdurchlauf eines Llama-1B-Modells in einen einzigen Kernel verschmolzen, wodurch die Überheads von Kernelgrenzen und Speicher-Pipeline-Blockaden, die bei herkömmlichen Ansätzen mit mehreren Kernels auftreten, eliminiert werden. Die Ergebnisse zeigen signifikante Geschwindigkeitsverbesserungen auf H100- und B200-GPUs, die bestehende Systeme um über das 1,5-fache übertreffen und eine deutlich niedrigere Latenz erreichen.

(hazyresearch.stanford.edu)

KI Low-Latency-Inferenz