PaliGemma 是一款轻量级开源视觉语言模型,它可以理解图像和文本,并回答有关图像的详细问题。PaliGemma 可以用于图像字幕、物体检测和阅读图像中的嵌入文本等任务。文章介绍了 PaliGemma 的两种模型:通用预训练模型和面向研究的微调模型。此外,文章还强调了 PaliGemma 的主要优势,包括多模态理解、多功能基础模型和开箱即用的探索能力。