高效追踪一切:EfficientTAM

2024-12-09

EfficientTAM 是一种轻量级追踪任何事物的模型,它在视频对象分割和追踪方面实现了低延迟和高质量。该模型的核心在于使用简化的 ViT 图像编码器和高效的内存模块,降低了帧特征提取和内存计算的复杂性。在多个视频分割基准测试中,EfficientTAM 的性能与 SAM 2 相当,但速度提高了约 2 倍,参数减少了约 2.4 倍。在移动设备上,EfficientTAM 可以以约 10 FPS 的速度运行视频对象分割任务。