ViTs vs. CNNs : Les benchmarks de vitesse réfutent les mythes sur la résolution
Cet article remet en question l'idée reçue que les Vision Transformers (ViTs) sont inefficaces pour le traitement d'images haute résolution. Grâce à des benchmarks rigoureux sur différentes GPUs, l'auteur compare la vitesse d'inférence, les FLOPs et l'utilisation de la mémoire des ViTs et des réseaux neuronaux convolutifs (CNNs). Les résultats montrent que les ViTs offrent des performances exceptionnelles jusqu'à 1024x1024 pixels, surpassant souvent les CNNs sur du matériel moderne en termes de vitesse et d'efficacité mémoire. L'auteur critique également l'accent excessif mis sur la haute résolution, suggérant que des résolutions plus basses sont souvent suffisantes. Enfin, l'article présente des mécanismes d'attention locale, améliorant encore l'efficacité des ViTs en haute résolution.