OpenArc: Intel 하드웨어에서 LLM을 가속화하는 경량 추론 API 백엔드

2025-02-19
OpenArc: Intel 하드웨어에서 LLM을 가속화하는 경량 추론 API 백엔드

OpenArc는 OpenVINO 런타임과 OpenCL 드라이버를 활용하여 Intel CPU, GPU, NPU에서 Transformers 모델의 추론을 가속화하는 경량 추론 API 백엔드입니다. 에이전트 사용 사례를 위해 설계되었으며, 강력한 형식의 FastAPI 구현을 갖추고 모델 로드, 언로드, 텍스트 생성, 상태 쿼리 등의 엔드포인트를 제공합니다. OpenArc는 머신러닝 코드와 애플리케이션 로직의 분리를 간소화하고 Ollama, LM-Studio, OpenRouter와 유사한 워크플로우를 제공합니다. 사용자 정의 모델과 역할을 지원하며, OpenAI 프록시, 비전 모델 지원 등의 기능 확장이 계획되어 있습니다.