llama.cppがQwen2VLマルチモーダルモデルを統合

2024-12-15

GitHub上のllama.cppプロジェクトは最近、Qwen2VLマルチモーダル大規模言語モデルのサポートを追加するプルリクエストをマージしました。このモデルは、大規模言語モデルとビジョンエンコーダーを組み合わせ、画像とテキストの両方を処理できます。統合には、モデルのLLM部分とビジョンエンコーダーをGGUF形式に変換し、新しいコマンドラインツールを使用して推論を行うことが含まれます。今後の作業には、MPSやVulkanなどのバックエンドのサポートを追加することが含まれます。