Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

VideoPrism：用于视频理解的基础视觉编码器

2024-05-09

谷歌研究院推出了VideoPrism，这是一个用于视频理解的基础视觉编码器。VideoPrism 旨在处理各种视频理解任务，包括分类、定位、检索、字幕和问答。VideoPrism 在包含 3600 万个高质量视频文本对和 5.82 亿个带噪声或机器生成文本的视频片段的大规模多样化数据集上进行预训练。VideoPrism 很容易适应新的视频理解挑战，并使用单个冻结模型实现了最先进的性能。

(research.google)

未分类视频理解谷歌研究