OpenArc : Un backend d'API d'inférence léger pour accélérer les LLM sur le matériel Intel

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-02-19

OpenArc est un backend d'API d'inférence léger qui utilise le runtime OpenVINO et les pilotes OpenCL pour accélérer l'inférence des modèles Transformers sur les CPU, GPU et NPU Intel. Conçu pour les cas d'utilisation des agents, il dispose d'une implémentation FastAPI fortement typée avec des points de terminaison pour le chargement des modèles, le déchargement, la génération de texte et les requêtes d'état. OpenArc simplifie le découplage du code d'apprentissage automatique de la logique de l'application, offrant un workflow similaire à Ollama, LM-Studio et OpenRouter. Il prend en charge les modèles et les rôles personnalisés, avec des extensions prévues incluant un proxy OpenAI, la prise en charge des modèles de vision et plus encore.