Pourquoi certains LLMs sont-ils rapides sur le cloud, mais lents en local ?
Cet article explore pourquoi les grands modèles de langage (LLMs), en particulier les modèles Mixture-of-Experts (MoE) comme DeepSeek-V3, sont rapides et peu coûteux à servir à grande échelle sur le cloud, mais lents et coûteux à exécuter localement. La clé réside dans l'inférence par lots : les GPU excellent dans les multiplications de matrices de grande taille, et le traitement par lots de nombreuses requêtes utilisateur améliore considérablement le débit, mais augmente la latence. Les modèles MoE et les modèles à plusieurs couches dépendent particulièrement du traitement par lots pour éviter les blocages du pipeline et la sous-utilisation des experts. Les fournisseurs de cloud équilibrent le débit et la latence en ajustant la taille du lot (fenêtre de collecte), tandis que les exécutions locales n'ont généralement qu'une seule requête, ce qui entraîne une utilisation très faible du GPU. L'efficacité des services d'OpenAI peut provenir d'une architecture de modèle supérieure, d'astuces d'inférence intelligentes ou de GPU beaucoup plus puissants.