llama.cpp Integra el Modelo Multimodal Qwen2VL

2024-12-15

El proyecto llama.cpp en GitHub fusionó recientemente una solicitud de extracción que agrega soporte para el modelo de lenguaje grande multimodal Qwen2VL. Este modelo combina un modelo de lenguaje grande con un codificador de visión, permitiendo el procesamiento de imágenes y texto. La integración implica convertir la parte LLM del modelo y el codificador de visión al formato GGUF y usar una nueva herramienta de línea de comandos para la inferencia. Trabajos futuros incluyen agregar soporte para más backends como MPS y Vulkan.

IA