OpenArc:Intelハードウェア上でLLMを高速化する軽量推論APIバックエンド
2025-02-19
OpenArcは、OpenVINOランタイムとOpenCLドライバーを利用して、Intel CPU、GPU、NPU上でTransformersモデルの推論を高速化する軽量推論APIバックエンドです。エージェントユースケース向けに設計されており、型安全なFastAPI実装を備え、モデルのロード、アンロード、テキスト生成、ステータス問い合わせなどのエンドポイントを提供します。OpenArcは、機械学習コードとアプリケーションロジックの分離を簡素化し、Ollama、LM-Studio、OpenRouterと同様のワークフローを提供します。カスタムモデルとロールをサポートし、OpenAIプロキシ、ビジョンモデルのサポートなどの機能拡張が計画されています。
AI
推論API