ViTs x CNNs: Benchmarks de Velocidade Desmentem Mitos sobre Resolução

2025-05-04

Este artigo questiona a crença comum de que os Transformadores de Visão (ViTs) são ineficientes para o processamento de imagens de alta resolução. Através de benchmarks rigorosos em várias GPUs, o autor compara a velocidade de inferência, FLOPs e uso de memória de ViTs e Redes Neurais Convolucionais (CNNs). Os resultados mostram que os ViTs têm um desempenho excepcional até e incluindo 1024x1024 pixels, muitas vezes superando as CNNs em hardware moderno em velocidade e eficiência de memória. O autor também argumenta contra uma ênfase excessiva em alta resolução, sugerindo que resoluções mais baixas são frequentemente suficientes. Finalmente, o artigo apresenta mecanismos de atenção local, melhorando ainda mais a eficiência do ViT em resoluções mais altas.

IA