¿Por qué algunos LLMs son rápidos en la nube, pero lentos localmente?

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-06-01

Este artículo explora por qué los modelos de lenguaje grandes (LLMs), especialmente los modelos Mixture-of-Experts (MoE) como DeepSeek-V3, son rápidos y baratos de servir a escala en la nube, pero lentos y caros de ejecutar localmente. La clave está en la inferencia por lotes: las GPUs sobresalen en las multiplicaciones de matrices grandes, y procesar por lotes varias solicitudes de usuario mejora significativamente el rendimiento, pero aumenta la latencia. Los modelos MoE y los modelos con muchas capas dependen particularmente del procesamiento por lotes para evitar cuellos de botella en el pipeline y la subutilización de expertos. Los proveedores de nube equilibran el rendimiento y la latencia ajustando el tamaño del lote (ventana de recolección), mientras que las ejecuciones locales suelen tener una sola solicitud, lo que lleva a una utilización muy baja de la GPU. La eficiencia de los servicios de OpenAI puede deberse a una arquitectura de modelo superior, trucos inteligentes de inferencia o GPUs mucho más potentes.