ViTs vs. CNNs: Geschwindigkeits-Benchmarks widerlegen Mythen zur Auflösung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

ViTs vs. CNNs: Geschwindigkeits-Benchmarks widerlegen Mythen zur Auflösung

2025-05-04

Dieser Artikel hinterfragt die weit verbreitete Annahme, dass Vision Transformers (ViTs) für die Verarbeitung von hochauflösenden Bildern ineffizient sind. Anhand gründlicher Benchmarks auf verschiedenen GPUs vergleicht der Autor die Inferenzgeschwindigkeit, FLOPs und die Speichernutzung von ViTs und Convolutional Neural Networks (CNNs). Die Ergebnisse zeigen, dass ViTs bis einschließlich 1024x1024 Pixel eine außergewöhnliche Leistung erbringen und moderne GPUs oft sowohl in Geschwindigkeit als auch in Bezug auf die Speichereffizienz übertreffen. Der Autor kritisiert auch die übermäßige Betonung hoher Auflösungen und schlägt vor, dass niedrigere Auflösungen oft ausreichen. Schließlich stellt der Artikel lokale Aufmerksamkeitsmechanismen vor, die die Effizienz von ViTs bei hohen Auflösungen weiter verbessern.

(lucasb.eyer.be)

Nirvanas Nevermind: Der unerwartete Erfolg eines Albums, das auf Dur-Akkorden basiert

Cjam: Ein leichter MP3-Editor für Windows