Modular präsentiert MAX 24.6: Eine native GPU-Generative-KI-Plattform
Modular hat MAX 24.6 veröffentlicht, eine native GPU-Generative-KI-Plattform, die darauf ausgelegt ist, die Entwicklung und Bereitstellung von KI neu zu definieren. Das Herzstück von MAX 24.6 ist MAX GPU, ein vertikal integrierter Generative-KI-Serving-Stack, der die Abhängigkeit von anbieterspezifischen Berechnungsbibliotheken wie NVIDIA CUDA eliminiert. Aufbauend auf dem Hochleistungs-KI-Modellcompiler und der Laufzeitumgebung MAX Engine und der Python-nativen Serving-Schicht MAX Serve unterstützt er den gesamten KI-Entwicklungslebenszyklus, vom Experimentieren bis zur Produktionsbereitstellung. MAX 24.6 unterstützt verschiedene Hardware-Plattformen, darunter NVIDIA A100, L40, L4 und A10-Beschleuniger, mit geplanter Unterstützung für H100, H200 und AMD-GPUs. Er ist kompatibel mit Hugging Face-Modellen und bietet eine OpenAI-kompatible Client-API. MAX 24.6 erreicht einen Durchsatz von 3860 Ausgabe-Tokens pro Sekunde beim Llama-3.1-Modell und erreicht damit die Leistung von vLLM mit einer kleineren Docker-Image-Größe.