Megakernels : Briser la latence de l'inférence LLM

2025-05-28
Megakernels : Briser la latence de l'inférence LLM

Pour augmenter la vitesse des grands modèles de langage (LLM) dans les applications à faible latence, telles que les chatbots, les chercheurs ont développé une technique de « mégakernel ». Cela fusionne le passage direct d'un modèle Llama-1B dans un seul kernel, éliminant les frais généraux des limites de kernel et les blocages de pipeline de mémoire inhérents aux approches traditionnelles à plusieurs kernels. Les résultats montrent des améliorations significatives de la vitesse sur les GPU H100 et B200, surpassant les systèmes existants de plus de 1,5 x et atteignant une latence considérablement plus faible.