PaliGemma 2:强大的视觉语言模型,简单的微调
2024-12-06
谷歌推出了PaliGemma 2,这是Gemma系列中新一代可调视觉语言模型。它在Gemma 2模型的基础上增加了视觉能力,并简化了微调过程以获得最佳性能。PaliGemma 2具有可扩展的性能,提供多种模型尺寸和分辨率,可生成详细的图像描述,并扩展到化学公式识别、乐谱识别、空间推理和胸部X光报告生成等新领域。现有PaliGemma用户可以轻松升级,因为它设计为直接替代品。Hugging Face、Kaggle和官方文档提供了预训练模型、代码和示例笔记本。
阅读更多
未分类
Gemma