ViTs vs. CNNs: Benchmarks de Velocidad Desmienten los Mitos sobre la Resolución

2025-05-04

Este artículo cuestiona la creencia común de que los Transformadores de Visión (ViTs) son ineficientes para el procesamiento de imágenes de alta resolución. A través de benchmarks rigurosos en varias GPUs, el autor compara la velocidad de inferencia, FLOPs y el uso de memoria de ViTs y Redes Neuronales Convolucionales (CNNs). Los resultados muestran que los ViTs tienen un rendimiento excepcional hasta e incluyendo 1024x1024 píxeles, superando a menudo a las CNNs en hardware moderno en velocidad y eficiencia de memoria. El autor también argumenta contra un énfasis excesivo en la alta resolución, sugiriendo que las resoluciones más bajas son a menudo suficientes. Finalmente, el artículo presenta mecanismos de atención local, mejorando aún más la eficiencia del ViT en resoluciones más altas.

Leer más
IA