Modular lance MAX 24.6 : une plateforme d’IA générative native pour GPU
Modular a lancé MAX 24.6, une plateforme d’IA générative native pour GPU conçue pour redéfinir la manière dont l’IA est développée et déployée. Au cœur de MAX 24.6 se trouve MAX GPU, une pile de services d’IA générative intégrée verticalement qui élimine la dépendance aux bibliothèques de calcul spécifiques aux fournisseurs, telles que NVIDIA CUDA. Construit sur le compilateur et le runtime de modèles d’IA hautes performances MAX Engine et la couche de service native Python MAX Serve, il prend en charge l’ensemble du cycle de vie du développement de l’IA, de l’expérimentation au déploiement en production. MAX 24.6 prend en charge plusieurs plates-formes matérielles, notamment les accélérateurs NVIDIA A100, L40, L4 et A10, avec un support prévu pour les GPU H100, H200 et AMD. Il est compatible avec les modèles Hugging Face et fournit une API client compatible OpenAI. MAX 24.6 atteint un débit de 3860 jetons de sortie par seconde sur le modèle Llama 3.1, égalant les performances de vLLM avec une taille d’image Docker plus petite.