Modular lança MAX 24.6: Plataforma de IA Generativa nativa para GPU

2024-12-17

A Modular lançou o MAX 24.6, uma plataforma de IA generativa nativa para GPU, projetada para redefinir como a IA é desenvolvida e implantada. O núcleo do MAX 24.6 é o MAX GPU, uma pilha de serviço de IA generativa integrada verticalmente que elimina a dependência de bibliotecas de computação específicas de fornecedores, como a NVIDIA CUDA. Construído no compilador e tempo de execução de modelo de IA de alto desempenho MAX Engine e na camada de serviço nativa do Python MAX Serve, ele suporta todo o ciclo de vida de desenvolvimento de IA, da experimentação à implantação de produção. O MAX 24.6 suporta várias plataformas de hardware, incluindo aceleradores NVIDIA A100, L40, L4 e A10, com suporte planejado para GPUs H100, H200 e AMD. Ele é compatível com modelos Hugging Face e fornece uma API de cliente compatível com OpenAI. O MAX 24.6 alcança uma taxa de transferência de 3860 tokens de saída por segundo no modelo Llama 3.1, igualando o desempenho do vLLM com um tamanho de imagem Docker menor.