OpenArc:轻量级推理 API 后端,加速 Intel 设备上的大型语言模型
2025-02-19
OpenArc 是一个轻量级的推理 API 后端,利用 OpenVINO 运行时和 OpenCL 驱动程序,在 Intel CPU、GPU 和 NPU 上加速 Transformers 模型的推理。它针对智能体应用场景而设计,具有类型安全的 FastAPI 实现,并提供模型加载、卸载、文本生成和状态查询等功能。OpenArc 简化了机器学习代码与应用逻辑的解耦,并提供与 Ollama、LM-Studio 和 OpenRouter 类似的工作流程。它支持自定义模型和角色,并提供丰富的功能扩展,例如添加 OpenAI 代理、支持视觉模型等。
AI
推理API