Megakernels: Latenz bei LLM-Inferenz knacken
2025-05-28
Um die Geschwindigkeit großer Sprachmodelle (LLMs) in Anwendungen mit niedriger Latenz wie Chatbots zu erhöhen, haben Forscher eine „Megakernel“-Technik entwickelt. Dabei wird der Vorwärtsdurchlauf eines Llama-1B-Modells in einen einzigen Kernel verschmolzen, wodurch die Überheads von Kernelgrenzen und Speicher-Pipeline-Blockaden, die bei herkömmlichen Ansätzen mit mehreren Kernels auftreten, eliminiert werden. Die Ergebnisse zeigen signifikante Geschwindigkeitsverbesserungen auf H100- und B200-GPUs, die bestehende Systeme um über das 1,5-fache übertreffen und eine deutlich niedrigere Latenz erreichen.
Mehr lesen