Modular, MAX 24.6 발표: GPU 네이티브 생성형 AI 플랫폼
2024-12-17
Modular는 AI 개발 및 배포 방식을 재정의하고자 하는 GPU 네이티브 생성형 AI 플랫폼인 MAX 24.6을 발표했습니다. MAX 24.6의 핵심은 MAX GPU이며, NVIDIA CUDA와 같은 공급업체 고유의 계산 라이브러리에 대한 의존성을 제거하는 수직 통합 생성형 AI 서빙 스택입니다. 고성능 AI 모델 컴파일러 및 런타임인 MAX Engine과 Python 네이티브 서빙 레이어인 MAX Serve를 기반으로 구축되어 실험부터 프로덕션 배포까지 AI 개발 라이프사이클 전체를 지원합니다. MAX 24.6은 NVIDIA A100, L40, L4, A10 액셀러레이터 등 다양한 하드웨어 플랫폼을 지원하며, H100, H200, AMD GPU 지원도 계획되어 있습니다. Hugging Face 모델과 호환되며 OpenAI 호환 클라이언트 API를 제공합니다. Llama 3.1 모델에서 초당 3860개의 출력 토큰 처리량을 달성하여 vLLM과 동등한 성능을 더 작은 Docker 이미지 크기로 제공합니다.