ViTs vs. CNNs: Benchmarks de Velocidad Desmienten los Mitos sobre la Resolución
Este artículo cuestiona la creencia común de que los Transformadores de Visión (ViTs) son ineficientes para el procesamiento de imágenes de alta resolución. A través de benchmarks rigurosos en varias GPUs, el autor compara la velocidad de inferencia, FLOPs y el uso de memoria de ViTs y Redes Neuronales Convolucionales (CNNs). Los resultados muestran que los ViTs tienen un rendimiento excepcional hasta e incluyendo 1024x1024 píxeles, superando a menudo a las CNNs en hardware moderno en velocidad y eficiencia de memoria. El autor también argumenta contra un énfasis excesivo en la alta resolución, sugiriendo que las resoluciones más bajas son a menudo suficientes. Finalmente, el artículo presenta mecanismos de atención local, mejorando aún más la eficiencia del ViT en resoluciones más altas.