ViT 比 CNN 快?高分辨率图像处理的效率之战

2025-05-04

本文挑战了关于Vision Transformer (ViT)在高分辨率图像处理中效率低的普遍观点。作者通过基准测试,在多种GPU上比较了ViT和卷积神经网络(CNN)的推理速度、FLOPs和内存使用情况,结果表明ViT在1024x1024像素及以下分辨率上表现出色,甚至在现代GPU上比CNN更快、更省内存。作者还论证了人们过于关注高分辨率,并建议根据任务需求选择合适的分辨率,大多数情况下,较低分辨率已足够。最后,作者介绍了局部注意力机制,进一步提升了ViT在高分辨率图像处理中的效率。

阅读更多
AI