llama.cpp가 Qwen2VL 멀티모달 모델 통합

2024-12-15

GitHub의 llama.cpp 프로젝트는 최근 Qwen2VL 멀티모달 대규모 언어 모델 지원을 추가하는 풀 리퀘스트를 병합했습니다. 이 모델은 대규모 언어 모델과 비전 인코더를 결합하여 이미지와 텍스트를 모두 처리할 수 있습니다. 통합에는 모델의 LLM 부분과 비전 인코더를 GGUF 형식으로 변환하고 새로운 명령줄 도구를 사용하여 추론하는 것이 포함됩니다. 향후 작업에는 MPS 및 Vulkan과 같은 백엔드 지원 추가가 포함됩니다.