FastVLM: ترميز رؤية فعال لنماذج لغة الرؤية

2025-05-13
FastVLM: ترميز رؤية فعال لنماذج لغة الرؤية

يقدم FastVLM مُشفّر رؤية هجينًا جديدًا، يُقلل بشكل كبير من وقت الترميز وعدد الرموز المُخرجة للصور عالية الدقة. حتى أصغر متغير يتميز بسرعة أكبر بمقدار 85 مرة في وقت الحصول على الرمز الأول (TTFT) ومُشفّر رؤية أصغر بمقدار 3.4 مرات من LLaVA-OneVision-0.5B. تتفوق المتغيرات الأكبر، المُقترنة بـ Qwen2-7B LLM، على النماذج الحديثة مثل Cambrian-1-8B، لتحقيق TTFT أسرع بمقدار 7.9 مرات. يُظهر تطبيق iOS تجريبي أداءه على الأجهزة المحمولة. يوفر المشروع إرشادات مفصلة للاستدلال ويدعم Apple Silicon وأجهزة Apple.

الذكاء الاصطناعي نموذج لغة الرؤية ترميز فعال