llama.cpp integriert das multimodale Modell Qwen2VL
2024-12-15
Das llama.cpp-Projekt auf GitHub hat kürzlich einen Pull Request zusammengeführt, der die Unterstützung für das multimodale Large Language Model Qwen2VL hinzufügt. Dieses Modell kombiniert ein Large Language Model mit einem visuellen Encoder und ermöglicht die Verarbeitung von Bildern und Text. Die Integration beinhaltet die Konvertierung des LLM-Teils des Modells und des visuellen Encoders in das GGUF-Format und die Verwendung eines neuen Befehlszeilen-Tools für die Inferenz. Zukünftige Arbeiten umfassen die Hinzufügung von Unterstützung für weitere Backends wie MPS und Vulkan.
KI