FastVLM: ترميز رؤية فعال لنماذج لغة الرؤية

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-05-13

يقدم FastVLM مُشفّر رؤية هجينًا جديدًا، يُقلل بشكل كبير من وقت الترميز وعدد الرموز المُخرجة للصور عالية الدقة. حتى أصغر متغير يتميز بسرعة أكبر بمقدار 85 مرة في وقت الحصول على الرمز الأول (TTFT) ومُشفّر رؤية أصغر بمقدار 3.4 مرات من LLaVA-OneVision-0.5B. تتفوق المتغيرات الأكبر، المُقترنة بـ Qwen2-7B LLM، على النماذج الحديثة مثل Cambrian-1-8B، لتحقيق TTFT أسرع بمقدار 7.9 مرات. يُظهر تطبيق iOS تجريبي أداءه على الأجهزة المحمولة. يوفر المشروع إرشادات مفصلة للاستدلال ويدعم Apple Silicon وأجهزة Apple.