OpenArc: Backend de API de inferência leve para acelerar LLMs em hardware Intel
OpenArc é um backend de API de inferência leve que utiliza o runtime OpenVINO e drivers OpenCL para acelerar a inferência de modelos Transformers em CPUs, GPUs e NPUs Intel. Projetado para casos de uso de agentes, ele possui uma implementação FastAPI com tipagem forte, com endpoints para carregamento de modelos, descarregamento, geração de texto e consultas de status. OpenArc simplifica o desacoplamento do código de aprendizado de máquina da lógica do aplicativo, oferecendo um fluxo de trabalho semelhante ao Ollama, LM-Studio e OpenRouter. Ele suporta modelos e funções personalizados, com extensões planejadas incluindo um proxy OpenAI, suporte para modelos de visão e muito mais.