Modal: Domando a volatilidade de preços de GPU com programação linear

2025-05-09
Modal: Domando a volatilidade de preços de GPU com programação linear

A Modal enfrenta o volátil mercado de GPUs usando um algoritmo de programação linear (LP). Seu sistema de resolução de recursos analisa a demanda, os preços e a disponibilidade em tempo real para ajustar dinamicamente a quantidade de instâncias de GPU, garantindo preços ótimos e atendendo às necessidades dos clientes. Mesmo com restrições como vários tipos de GPU, CPU, RAM e limitações regionais, o sistema aloca recursos em segundos, aproveitando as discrepâncias de preços para economizar milhões anualmente. Isso garante escalabilidade rápida, enquanto emprega heurísticas e o robusto solucionador GLOP do Google para confiabilidade e estabilidade. Os clientes desfrutam de escalabilidade perfeita sem as complexidades do gerenciamento de recursos na nuvem.

Leia mais
Tecnologia

Maximizando a Utilização de GPU: Da Alocação a FLOP/s

2025-05-07
Maximizando a Utilização de GPU: Da Alocação a FLOP/s

Este artigo mergulha em três níveis de utilização de GPU: Utilização de Alocação de GPU, Utilização de Kernel de GPU e Utilização de FLOP/s do Modelo. Os autores destacam a importância de maximizar a utilização de GPU, dado seu alto custo e sensibilidade de desempenho. O artigo analisa os fatores que afetam a utilização em cada nível, como limitações econômicas, limitações de DevOps e sobrecarga do host, e propõe estratégias de otimização, como o uso da plataforma Modal para melhorar a eficiência de alocação de GPU, otimização de código de kernel e aumento da intensidade aritmética. Finalmente, o artigo compartilha o estado atual da utilização de GPU na indústria e melhores práticas, fornecendo experiência e orientação valiosas para desenvolvedores.

Leia mais
Desenvolvimento

DoppelBot: Substitua seu CEO por um LLM

2025-02-04
DoppelBot: Substitua seu CEO por um LLM

A Modal criou o DoppelBot, um bot para Slack que pode (quase) substituir seu CEO! Ele ajusta finamente um modelo OpenLLaMa com as mensagens do Slack da sua equipe para imitar o estilo de comunicação do seu CEO. Construído na plataforma serverless da Modal, todo o processo – raspagem, ajuste fino, inferência e tratamento de eventos do Slack – é otimizado e eficiente. O código aberto permite fácil implantação e personalização em seu espaço de trabalho. Usando LoRA para ajuste fino eficiente e suporte a vários espaços de trabalho, o DoppelBot oferece uma abordagem inovadora para aprimoramento da colaboração e produtividade da equipe. O artigo detalha sua funcionalidade e etapas de implantação.

Leia mais
Desenvolvimento Bot do Slack

Glossário de GPU: Um Guia Completo para a Arquitetura de GPU

2025-01-14
Glossário de GPU: Um Guia Completo para a Arquitetura de GPU

A equipe Modal criou um glossário abrangente de GPU para resolver a natureza fragmentada da documentação de GPU. Este dicionário online interativo conecta conceitos em diferentes níveis da pilha, desde a arquitetura CUDA até os sinalizadores do compilador nvcc. Os usuários podem navegar por meio de hiperlinks ou ler linearmente. O glossário abrange hardware de dispositivo (arquitetura CUDA, multiprocessadores de streaming, etc.), software de dispositivo (modelo de programação CUDA, PTX, etc.) e software de host (CUDA C++, drivers NVIDIA, etc.), fornecendo aos desenvolvedores um recurso abrangente e fácil de entender para o conhecimento de GPU.

Leia mais
Desenvolvimento Computação Paralela