FastVLM من آبل: نموذج لغوي بصري فائق السرعة

2025-07-24
FastVLM من آبل: نموذج لغوي بصري فائق السرعة

كشف باحثو آبل ML عن FastVLM، وهو نموذج لغوي بصري (VLM) جديد، في مؤتمر CVPR 2025. ويتناول هذا النموذج التوازن بين الدقة والكفاءة المتأصل في نماذج VLM، باستخدام مشفر رؤية لهيكلية هجينة، وهو FastViTHD، مصمم للصور عالية الدقة. ويؤدي هذا إلى نموذج VLM أسرع وأكثر دقة بكثير من النماذج المماثلة، مما يسمح بتطبيقات في الوقت الحقيقي على الأجهزة وذكاء اصطناعي يحافظ على الخصوصية. يُنتج FastViTHD عددًا أقل من الرموز البصرية، لكنها ذات جودة أعلى، مما يُسرّع من عملية ملء LLM. ويُظهر تطبيق تجريبي على iOS/macOS إمكانيات FastVLM على الأجهزة.