Sakuga-42M数据集:扩大卡通研究规模

2024-05-17

这篇论文介绍了Sakuga-42M数据集,这是一个包含4200万个关键帧的大规模卡通动画数据集,涵盖了各种艺术风格、地区和年代,并包含了视频文本描述对、动画标签、内容分类等语义注释。研究表明,大型数据集对理解和生成自然视频的模型(如CLIP、SVD和Sora)在卡通动画方面效果不佳,这是因为卡通动画的偏差与自然视频的分布不同。Sakuga-42M数据集的提出旨在将大规模数据应用于卡通研究,并通过微调Video CLIP、Video Mamba和SVD等基础模型,在卡通相关任务上取得出色性能,从而促进未来卡通应用的泛化和鲁棒性。

76
未分类 卡通动画