Modular presenta MAX 24.6: Plataforma de IA generativa nativa para GPU
Modular ha lanzado MAX 24.6, una plataforma de IA generativa nativa para GPU diseñada para redefinir cómo se desarrolla e implementa la IA. El núcleo de MAX 24.6 es MAX GPU, una pila de servicio de IA generativa integrada verticalmente que elimina la dependencia de bibliotecas de computación específicas del proveedor, como NVIDIA CUDA. Construido sobre el compilador y tiempo de ejecución de modelos de IA de alto rendimiento MAX Engine y la capa de servicio nativa de Python MAX Serve, admite todo el ciclo de vida del desarrollo de IA, desde la experimentación hasta la implementación de producción. MAX 24.6 admite varias plataformas de hardware, incluidos los aceleradores NVIDIA A100, L40, L4 y A10, con soporte planificado para las GPU H100, H200 y AMD. Es compatible con los modelos Hugging Face y proporciona una API de cliente compatible con OpenAI. MAX 24.6 logra un rendimiento de 3860 tokens de salida por segundo en el modelo Llama 3.1, igualando el rendimiento de vLLM con un tamaño de imagen Docker más pequeño.
Leer más