OpenArc : Un backend d'API d'inférence léger pour accélérer les LLM sur le matériel Intel
OpenArc est un backend d'API d'inférence léger qui utilise le runtime OpenVINO et les pilotes OpenCL pour accélérer l'inférence des modèles Transformers sur les CPU, GPU et NPU Intel. Conçu pour les cas d'utilisation des agents, il dispose d'une implémentation FastAPI fortement typée avec des points de terminaison pour le chargement des modèles, le déchargement, la génération de texte et les requêtes d'état. OpenArc simplifie le découplage du code d'apprentissage automatique de la logique de l'application, offrant un workflow similaire à Ollama, LM-Studio et OpenRouter. Il prend en charge les modèles et les rôles personnalisés, avec des extensions prévues incluant un proxy OpenAI, la prise en charge des modèles de vision et plus encore.