مقارنة بين ViTs و CNNs: معايير الأداء تُثبت خطأ المعتقدات حول الدقة

2025-05-04

تتناول هذه المقالة الاعتقاد الشائع بأنّ محوّلات الرؤية (ViTs) غير فعّالة في معالجة الصور عالية الدقة. من خلال معايير أداء دقيقة على وحدات معالجة الرسوميات المتنوعة، قارن الكاتب سرعة الاستنتاج، وعمليات الفاصلة العائمة (FLOPs)، واستخدام الذاكرة لكل من ViTs وشبكات الأعصاب التلافيفية (CNNs). تُظهر النتائج أنّ ViTs تُظهر أداءً استثنائياً حتى دقة 1024 × 1024 بكسل، بل تتفوق في كثير من الأحيان على CNNs على الأجهزة الحديثة من حيث السرعة وكفاءة الذاكرة. كما ينتقد الكاتب التركيز المفرط على الدقة العالية، واقترح أنّ الدقة المنخفضة تكفي في أغلب الحالات. وأخيراً، تُقدم المقالة آليات الانتباه المحلي، مما يُحسّن من كفاءة ViTs في الدقة العالية.

الذكاء الاصطناعي