PaliGemma是谷歌发布的一款开源多模态模型,它结合了视觉和语言模型,可以进行图像和文本的输入输出。与其他难以进行物体检测和分割的VLM不同,PaliGemma具有广泛的能力,并可以通过微调来提升特定任务的性能。谷歌开源这一高性能模型,为开源AI领域带来了重大突破,用户可以创建自定义多模态模型,并将其部署在云端或边缘设备上。