Modal : Maîtriser la volatilité des prix des GPU grâce à la programmation linéaire

2025-05-09
Modal : Maîtriser la volatilité des prix des GPU grâce à la programmation linéaire

Modal s'attaque au marché volatile des GPU en utilisant un algorithme de programmation linéaire (PL). Son système de résolution de ressources analyse la demande, les prix et la disponibilité en temps réel pour ajuster dynamiquement le nombre d'instances de GPU, garantissant des prix optimaux et répondant aux besoins des clients. Même avec des contraintes telles que différents types de GPU, CPU, RAM et limitations régionales, le système alloue des ressources en quelques secondes, tirant parti des écarts de prix pour économiser des millions chaque année. Cela garantit une mise à l'échelle rapide, tout en utilisant des heuristiques et le robuste solveur GLOP de Google pour la fiabilité et la stabilité. Les clients bénéficient d'une évolutivité transparente sans les complexités de la gestion des ressources cloud.

Lire plus
Technologie

Maximiser l'utilisation du GPU : de l'allocation aux FLOP/s

2025-05-07
Maximiser l'utilisation du GPU : de l'allocation aux FLOP/s

Cet article explore trois niveaux d'utilisation du GPU : l'utilisation de l'allocation du GPU, l'utilisation du noyau du GPU et l'utilisation des FLOP/s du modèle. Les auteurs soulignent l'importance de maximiser l'utilisation du GPU compte tenu de son coût élevé et de sa sensibilité aux performances. L'article analyse les facteurs qui affectent l'utilisation à chaque niveau, tels que les limitations économiques, les limitations DevOps et la surcharge de l'hôte, et propose des stratégies d'optimisation, telles que l'utilisation de la plateforme Modal pour améliorer l'efficacité de l'allocation du GPU, l'optimisation du code du noyau et l'augmentation de l'intensité arithmétique. Enfin, l'article partage l'état actuel de l'utilisation du GPU dans l'industrie et les meilleures pratiques, offrant une expérience et des conseils précieux aux développeurs.

Lire plus
Développement utilisation du GPU

DoppelBot : Remplacez votre PDG par un LLM

2025-02-04
DoppelBot : Remplacez votre PDG par un LLM

Modal a créé DoppelBot, un bot Slack qui peut (presque) remplacer votre PDG ! Il ajuste finement un modèle OpenLLaMa avec les messages Slack de votre équipe pour imiter le style de communication de votre PDG. Construit sur la plateforme serverless de Modal, l'ensemble du processus – extraction, réglage fin, inférence et gestion des événements Slack – est optimisé et efficace. Le code open source permet une implémentation et une personnalisation faciles dans votre espace de travail. Utilisant LoRA pour un réglage fin efficace et la prise en charge de plusieurs espaces de travail, DoppelBot offre une approche novatrice pour améliorer la collaboration et la productivité de l'équipe. L'article détaille ses fonctionnalités et les étapes de déploiement.

Lire plus
Développement Bot Slack

Glossaire GPU : Guide complet de l’architecture GPU

2025-01-14
Glossaire GPU : Guide complet de l’architecture GPU

L’équipe Modal a créé un glossaire complet sur les GPU pour remédier à la nature fragmentée de la documentation sur les GPU. Ce dictionnaire en ligne interactif relie les concepts à différents niveaux de la pile, de l’architecture CUDA aux indicateurs du compilateur nvcc. Les utilisateurs peuvent naviguer à l’aide de liens hypertexte ou lire de manière linéaire. Le glossaire couvre le matériel du périphérique (architecture CUDA, multiprocesseurs de streaming, etc.), les logiciels du périphérique (modèle de programmation CUDA, PTX, etc.) et les logiciels de l’hôte (CUDA C++, pilotes NVIDIA, etc.), offrant ainsi aux développeurs une ressource complète et facile à comprendre sur les connaissances relatives aux GPU.

Lire plus
Développement Calcul Parallèle