ViTs vs. CNNs: Geschwindigkeits-Benchmarks widerlegen Mythen zur Auflösung
Dieser Artikel hinterfragt die weit verbreitete Annahme, dass Vision Transformers (ViTs) für die Verarbeitung von hochauflösenden Bildern ineffizient sind. Anhand gründlicher Benchmarks auf verschiedenen GPUs vergleicht der Autor die Inferenzgeschwindigkeit, FLOPs und die Speichernutzung von ViTs und Convolutional Neural Networks (CNNs). Die Ergebnisse zeigen, dass ViTs bis einschließlich 1024x1024 Pixel eine außergewöhnliche Leistung erbringen und moderne GPUs oft sowohl in Geschwindigkeit als auch in Bezug auf die Speichereffizienz übertreffen. Der Autor kritisiert auch die übermäßige Betonung hoher Auflösungen und schlägt vor, dass niedrigere Auflösungen oft ausreichen. Schließlich stellt der Artikel lokale Aufmerksamkeitsmechanismen vor, die die Effizienz von ViTs bei hohen Auflösungen weiter verbessern.