MINT-1T:规模扩大 10 倍的开源多模态数据集
2024-07-24
MINT-1T是一个开源的多模态交错数据集,包含一万亿个文本词符和34亿张图片,规模比现有开源数据集扩大10倍。该数据集还包括PDF、ArXiv论文等全新来源,并发布了所有子集,包括HTML数据、PDF数据和ArXiv数据。
39
未分类