Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

ViTs vs. CNNs: Benchmarks de Velocidad Desmienten los Mitos sobre la Resolución

2025-05-04

Este artículo cuestiona la creencia común de que los Transformadores de Visión (ViTs) son ineficientes para el procesamiento de imágenes de alta resolución. A través de benchmarks rigurosos en varias GPUs, el autor compara la velocidad de inferencia, FLOPs y el uso de memoria de ViTs y Redes Neuronales Convolucionales (CNNs). Los resultados muestran que los ViTs tienen un rendimiento excepcional hasta e incluyendo 1024x1024 píxeles, superando a menudo a las CNNs en hardware moderno en velocidad y eficiencia de memoria. El autor también argumenta contra un énfasis excesivo en la alta resolución, sugiriendo que las resoluciones más bajas son a menudo suficientes. Finalmente, el artículo presenta mecanismos de atención local, mejorando aún más la eficiencia del ViT en resoluciones más altas.

(lucasb.eyer.be)