本文介绍了Llama 3-V,第一个建立在Llama3之上的多模态模型,该模型仅用500美元的训练成本就实现了与GPT4-V相当的性能。文章详细介绍了Llama 3-V的模型架构,包括使用SigLIP模型进行图像嵌入、使用投影块对齐文本和视觉标记以及将视觉标记添加到文本标记之前。此外,文章还介绍了训练框架、系统优化、预训练和监督微调等方面的内容,并总结了Llama 3-V的优势。