¿Por qué algunos LLMs son rápidos en la nube, pero lentos localmente?

2025-06-01

Este artículo explora por qué los modelos de lenguaje grandes (LLMs), especialmente los modelos Mixture-of-Experts (MoE) como DeepSeek-V3, son rápidos y baratos de servir a escala en la nube, pero lentos y caros de ejecutar localmente. La clave está en la inferencia por lotes: las GPUs sobresalen en las multiplicaciones de matrices grandes, y procesar por lotes varias solicitudes de usuario mejora significativamente el rendimiento, pero aumenta la latencia. Los modelos MoE y los modelos con muchas capas dependen particularmente del procesamiento por lotes para evitar cuellos de botella en el pipeline y la subutilización de expertos. Los proveedores de nube equilibran el rendimiento y la latencia ajustando el tamaño del lote (ventana de recolección), mientras que las ejecuciones locales suelen tener una sola solicitud, lo que lleva a una utilización muy baja de la GPU. La eficiencia de los servicios de OpenAI puede deberse a una arquitectura de modelo superior, trucos inteligentes de inferencia o GPUs mucho más potentes.