Megakernels : Briser la latence de l'inférence LLM

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Megakernels : Briser la latence de l'inférence LLM

2025-05-28

Pour augmenter la vitesse des grands modèles de langage (LLM) dans les applications à faible latence, telles que les chatbots, les chercheurs ont développé une technique de « mégakernel ». Cela fusionne le passage direct d'un modèle Llama-1B dans un seul kernel, éliminant les frais généraux des limites de kernel et les blocages de pipeline de mémoire inhérents aux approches traditionnelles à plusieurs kernels. Les résultats montrent des améliorations significatives de la vitesse sur les GPU H100 et B200, surpassant les systèmes existants de plus de 1,5 x et atteignant une latence considérablement plus faible.

(hazyresearch.stanford.edu)

IA inférence faible latence

Interface cellule-nanoparticule permettant la programmation électromagnétique sans fil de l'expression de transgènes chez les mammifères

Michael Larabel : 20 ans de benchmark matériel Linux