OpenArc: Ein leichtgewichtiges Inferenz-API-Backend zur Beschleunigung von LLMs auf Intel-Hardware

2025-02-19
OpenArc: Ein leichtgewichtiges Inferenz-API-Backend zur Beschleunigung von LLMs auf Intel-Hardware

OpenArc ist ein leichtgewichtiges Inferenz-API-Backend, das die OpenVINO-Laufzeit und OpenCL-Treiber nutzt, um die Inferenz von Transformer-Modellen auf Intel-CPUs, -GPUs und -NPUs zu beschleunigen. Es wurde für agentenbasierte Anwendungsfälle entwickelt und bietet eine stark typisierte FastAPI-Implementierung mit Endpunkten für das Laden und Entladen von Modellen, die Textgenerierung und Statusabfragen. OpenArc vereinfacht die Entkopplung von Machine-Learning-Code von der Anwendungslogik und bietet einen ähnlichen Workflow wie Ollama, LM-Studio und OpenRouter. Es unterstützt benutzerdefinierte Modelle und Rollen und wird um Funktionen wie einen OpenAI-Proxy, Unterstützung für visuelle Modelle usw. erweitert.