llama.cpp intègre le modèle multi-modal Qwen2VL

2024-12-15

Le projet llama.cpp sur GitHub a récemment fusionné une pull request ajoutant la prise en charge du modèle de langage large multi-modal Qwen2VL. Ce modèle combine un grand modèle de langage avec un encodeur de vision, permettant le traitement d'images et de texte. L'intégration implique de convertir la partie LLM du modèle et l'encodeur de vision au format GGUF et d'utiliser un nouvel outil en ligne de commande pour l'inférence. Les travaux futurs incluent l'ajout de la prise en charge de plus de backends tels que MPS et Vulkan.

IA