Por que alguns LLMs são rápidos na nuvem, mas lentos localmente?

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-06-01

Este artigo explora por que modelos de linguagem grandes (LLMs), especialmente modelos Mixture-of-Experts (MoE) como DeepSeek-V3, são rápidos e baratos para servir em escala na nuvem, mas lentos e caros para executar localmente. A chave está na inferência em lote: GPUs excel em multiplicações de matrizes grandes, e processar em lote vários pedidos de usuário melhora significativamente a taxa de transferência, mas aumenta a latência. Modelos MoE e modelos com muitas camadas dependem particularmente do processamento em lote para evitar gargalos no pipeline e subutilização de especialistas. Provedores de nuvem equilibram a taxa de transferência e a latência ajustando o tamanho do lote (janela de coleta), enquanto execuções locais geralmente têm apenas um pedido, levando a uma utilização muito baixa da GPU. A eficiência dos serviços da OpenAI pode resultar de uma arquitetura de modelo superior, truques inteligentes de inferência ou GPUs muito mais poderosas.