llama.cpp Integra Modelo Multimodal Qwen2VL

2024-12-15

O projeto llama.cpp no GitHub recentemente mesclou uma solicitação de pull adicionando suporte para o modelo de linguagem grande multimodal Qwen2VL. Este modelo combina um modelo de linguagem grande com um codificador de visão, permitindo o processamento de imagens e texto. A integração envolve converter a parte LLM do modelo e o codificador de visão para o formato GGUF e usar uma nova ferramenta de linha de comando para inferência. Trabalhos futuros incluem adicionar suporte para mais backends como MPS e Vulkan.

IA