麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员开发了一种名为“DenseAV”的新算法,该算法能够仅通过观看视频来学习语言。DenseAV 通过将音频和视频数据分开处理,并使用对比学习来识别匹配和不匹配的信号,从而学习语言的预测模式。研究人员在包含 200 万个 YouTube 视频的 AudioSet 上训练了 DenseAV,并在识别物体及其名称和声音等任务中表现出色。