OpenArc: Backend de API de inferencia ligero para acelerar LLMs en hardware Intel
2025-02-19
OpenArc es un backend de API de inferencia ligero que aprovecha el tiempo de ejecución de OpenVINO y los controladores OpenCL para acelerar la inferencia de modelos Transformers en CPUs, GPUs y NPUs de Intel. Diseñado para casos de uso de agentes, cuenta con una implementación FastAPI con tipado fuerte, con puntos finales para cargar modelos, descargarlos, generar texto y consultas de estado. OpenArc simplifica el desacoplamiento del código de aprendizaje automático de la lógica de la aplicación, ofreciendo un flujo de trabajo similar a Ollama, LM-Studio y OpenRouter. Admite modelos y roles personalizados, con extensiones planificadas que incluyen un proxy OpenAI, soporte para modelos de visión y más.