Modular、MAX 24.6を発表:GPUネイティブの生成AIプラットフォーム

2024-12-17

Modularは、AIの開発と展開方法を再定義することを目指した、GPUネイティブの生成AIプラットフォームであるMAX 24.6を発表しました。MAX 24.6の中核はMAX GPUであり、NVIDIA CUDAなどのベンダー固有の計算ライブラリへの依存性を排除する、垂直統合された生成AIサービングスタックです。高性能AIモデルコンパイラとランタイムであるMAX Engine、そしてPythonネイティブのサービングレイヤーであるMAX Serve上に構築されており、実験から本番環境への展開まで、AI開発ライフサイクル全体をサポートします。MAX 24.6は、NVIDIA A100、L40、L4、A10アクセラレータなど、さまざまなハードウェアプラットフォームをサポートし、H100、H200、AMD GPUのサポートも予定されています。Hugging Faceモデルと互換性があり、OpenAI互換のクライアントAPIを提供します。Llama 3.1モデルでは、3860トークン/秒の出力スループットを実現し、vLLMと同等の性能を、より小さなDockerイメージサイズで実現しています。