VideoPrism:用于视频理解的基础视觉编码器

2024-05-09

谷歌研究院推出了VideoPrism,这是一个用于视频理解的基础视觉编码器。VideoPrism 旨在处理各种视频理解任务,包括分类、定位、检索、字幕和问答。VideoPrism 在包含 3600 万个高质量视频文本对和 5.82 亿个带噪声或机器生成文本的视频片段的大规模多样化数据集上进行预训练。VideoPrism 很容易适应新的视频理解挑战,并使用单个冻结模型实现了最先进的性能。