Por que alguns LLMs são rápidos na nuvem, mas lentos localmente?
Este artigo explora por que modelos de linguagem grandes (LLMs), especialmente modelos Mixture-of-Experts (MoE) como DeepSeek-V3, são rápidos e baratos para servir em escala na nuvem, mas lentos e caros para executar localmente. A chave está na inferência em lote: GPUs excel em multiplicações de matrizes grandes, e processar em lote vários pedidos de usuário melhora significativamente a taxa de transferência, mas aumenta a latência. Modelos MoE e modelos com muitas camadas dependem particularmente do processamento em lote para evitar gargalos no pipeline e subutilização de especialistas. Provedores de nuvem equilibram a taxa de transferência e a latência ajustando o tamanho do lote (janela de coleta), enquanto execuções locais geralmente têm apenas um pedido, levando a uma utilização muito baixa da GPU. A eficiência dos serviços da OpenAI pode resultar de uma arquitetura de modelo superior, truques inteligentes de inferência ou GPUs muito mais poderosas.