视频自监督学习

2024-08-22

本文概述了近年来出现的一种新的视频自监督学习方法——掩码自编码器。文章首先介绍了图像掩码自编码器(ImageMAE)的基本原理,然后讨论了将掩码模型应用于视频时需要特别注意的时间冗余和时间相关性问题。 针对这些问题,文章详细介绍了VideoMAE架构及其后续工作,包括VideoMAEv2、MGMAE和ARVideo,这些方法通过不同的策略,如时间降采样、立方体嵌入、极高掩码率、运动引导掩码和自回归预测等,有效地提高了视频自监督学习的效率和性能。

阅读更多
未分类 掩码自编码器

图像分割基础模型SAM家族

2024-08-11

本文深入探讨了图像分割基础模型 Segment Anything Model (SAM) 家族,包括其架构、应用和性能。SAM 的核心是可提示分割任务、模型架构和数据集,其中模型架构包含图像编码器、灵活的提示编码器和快速掩码解码器。文章还介绍了 SAM 的后续版本 FastSAM、MobileSAM、EfficientSAM 和 SAM 2,它们分别在速度、效率、模型大小和视频分割方面进行了改进。这些模型的出现标志着计算机视觉领域的一大进步,特别是图像和视频分割领域,展现了基础模型在计算机视觉中的强大能力。

阅读更多
未分类 SAM