如果我们用LLaMA-3重新标注数十亿张网络图片会发生什么?

2024-06-13

文章介绍了一项利用开源大型语言模型LLaMA-3对网络图片进行重新标注的研究。研究人员首先微调了一个基于LLaMA-3-8B的LLaVA-1.5模型,然后用它对来自DataComp-1B数据集的13亿张图片进行了重新标注。实验结果表明,使用这个名为Recap-DataComp-1B的增强数据集训练视觉语言模型可以显著提高模型性能。

53
未分类 LLaMA-3 图像标注