Meta 发布了 Segment Anything 模型 2 (SAM 2),这是一个用于图像和视频中可提示视觉分割的基础模型。SAM 2 将图像视为具有一帧的视频扩展到视频。该模型设计是一个简单的 transformer 架构,具有用于实时视频处理的流内存。Meta 还构建了一个模型在环数据引擎,它通过用户交互改进模型和数据,以收集 SA-V 数据集,这是迄今为止最大的视频分割数据集。