搜索技巧 核手提箱 海洋云增白 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 世界 PostgreSQL AI工具 DirectX 防溢 DrawingPics 儿童读物 化学 连续滚动 代码审查 KDE 游戏测试 多动症 超级计算机 植物学 分析化学 三菱电机 更多

VideoPrism:用于视频理解的基础视觉编码器 (research.google)

谷歌研究院推出了VideoPrism,这是一个用于视频理解的基础视觉编码器。VideoPrism 旨在处理各种视频理解任务,包括分类、定位、检索、字幕和问答。VideoPrism 在包含 3600 万个高质量视频文本对和 5.82 亿个带噪声或机器生成文本的视频片段的大规模多样化数据集上进行预训练。VideoPrism 很容易适应新的视频理解挑战,并使用单个冻结模型实现了最先进的性能。

评论已经关闭!