Modular发布MAX 24.6:原生GPU生成式AI平台
Modular发布了MAX 24.6,一个原生GPU生成式AI平台,旨在重新定义AI的开发和部署方式。MAX 24.6的核心是MAX GPU,一个垂直整合的生成式AI服务堆栈,摆脱了对NVIDIA CUDA等厂商专用计算库的依赖。它基于高性能AI模型编译器和运行时MAX Engine以及Python原生服务层MAX Serve,支持整个AI开发流程,从实验到生产部署。MAX 24.6支持多种硬件平台,包括NVIDIA A100、L40、L4和A10加速器,并计划支持H100、H200和AMD GPU。其与Hugging Face模型兼容,并提供OpenAI兼容的客户端API。MAX 24.6在Llama 3.1模型上实现了3860个输出token/秒的吞吐量,与vLLM性能相当,并具有更小的Docker镜像尺寸。
阅读更多