FastVLM من آبل: نموذج لغوي بصري فائق السرعة

2025-07-24
FastVLM من آبل: نموذج لغوي بصري فائق السرعة

كشف باحثو آبل ML عن FastVLM، وهو نموذج لغوي بصري (VLM) جديد، في مؤتمر CVPR 2025. ويتناول هذا النموذج التوازن بين الدقة والكفاءة المتأصل في نماذج VLM، باستخدام مشفر رؤية لهيكلية هجينة، وهو FastViTHD، مصمم للصور عالية الدقة. ويؤدي هذا إلى نموذج VLM أسرع وأكثر دقة بكثير من النماذج المماثلة، مما يسمح بتطبيقات في الوقت الحقيقي على الأجهزة وذكاء اصطناعي يحافظ على الخصوصية. يُنتج FastViTHD عددًا أقل من الرموز البصرية، لكنها ذات جودة أعلى، مما يُسرّع من عملية ملء LLM. ويُظهر تطبيق تجريبي على iOS/macOS إمكانيات FastVLM على الأجهزة.

اقرأ المزيد

أبل تكشف عن جيل جديد من نماذج اللغة الأساسية متعددة اللغات والوسائط

2025-07-18
أبل تكشف عن جيل جديد من نماذج اللغة الأساسية متعددة اللغات والوسائط

أعلنت أبل عن نموذجين جديدين للغة الأساسية متعددي اللغات والوسائط، يعملان على تشغيل ميزات الذكاء على أجهزتها وخوادمها. نموذج للجهاز بحوالي 3 مليارات معلمة، مُحسّن لأجهزة Apple Silicon، ونموذج خادم قابل للتطوير مبني على محوّل Parallel-Track Mixture-of-Experts (PT-MoE) جديد. كلاهما تم تدريبهما على مجموعات بيانات ضخمة متعددة اللغات والوسائط، وصقلها من خلال ضبط دقيق تحت الإشراف والتعلم المعزز. يدعمان المزيد من اللغات، وفهم الصور، وعمليات استدعاء الأدوات، ويضاهيان أو يتجاوزان نماذج المصدر المفتوح المماثلة. يسهّل إطار عمل جديد يركز على Swift عملية الدمج للمطورين.

اقرأ المزيد
الذكاء الاصطناعي

TarFlow: تدفقات التطبيع القائمة على المُحوِّلات تحقق أحدث مستوى من التقدير الاحتمالي للصور

2025-06-28
TarFlow: تدفقات التطبيع القائمة على المُحوِّلات تحقق أحدث مستوى من التقدير الاحتمالي للصور

يقدم الباحثون TarFlow، وهو نموذج جديد لتدفقات التطبيع يستخدم المُحوِّلات وتدفقات الانحدار الذاتي المُقنّعة. يُقدّر TarFlow الكثافة ويُولّد الصور بكفاءة من خلال معالجة رقعة الصور باستخدام كتل المُحوِّلات الانحدارية الذاتية، مع تبديل اتجاه الانحدار الذاتي بين الطبقات. تُحسّن ثلاث تقنيات أساسية جودة العينات: زيادة الضوضاء الغاوسية أثناء التدريب، وإجراء إزالة الضوضاء بعد التدريب، وطريقة توجيه فعّالة لكل من الإعدادات الشرطية وغير الشرطية للصفوف. يحقق TarFlow نتائج متقدمة في تقدير الاحتمال للصور، متجاوزًا الطرق السابقة بشكل كبير، ويُولّد عينات بجودة وتنوع يُضاهيان نماذج الانتشار - وهي المرة الأولى لنموذج تدفق تطبيع مستقل.

اقرأ المزيد
الذكاء الاصطناعي تدفقات التطبيع المُحوِّلات

نماذج الاستدلال الضخمة: الانهيار والقياس غير البديهي

2025-06-08
نماذج الاستدلال الضخمة: الانهيار والقياس غير البديهي

أدت أجيال نماذج اللغة الضخمة الحديثة إلى ظهور نماذج استدلال ضخمة (LRMs) ، والتي تولد مسارات تفكير مفصلة قبل تقديم الإجابات. على الرغم من أنها تُظهر تحسينًا في معايير اختبار الاستدلال ، إلا أن قدراتها الأساسية لا تزال غير مفهومة جيدًا. يبحث هذا العمل في نماذج LRMs باستخدام بيئات ألغاز قابلة للتحكم ، ويكشف عن انهيار كامل للدقة يتجاوز عتبة معينة من التعقيد. وبشكل مدهش ، يزداد جهد الاستدلال مع زيادة التعقيد ، ثم يتناقص على الرغم من وجود ميزانية كافية من الرموز. مقارنةً بنماذج اللغة الضخمة القياسية ، ظهرت ثلاث أنظمة: (1) مهام منخفضة التعقيد حيث تتفوق نماذج اللغة الضخمة القياسية على نماذج LRMs ، (2) مهام متوسطة التعقيد حيث تُظهر نماذج LRMs ميزة ، و (3) مهام عالية التعقيد حيث تفشل كلاهما. تُظهر نماذج LRMs قيودًا في الحساب الدقيق ، حيث تفشل في استخدام الخوارزميات الصريحة وتستدل بشكل غير متسق. تُبرز هذه الدراسة نقاط القوة والقيود والأسئلة الهامة حول القدرات الحقيقية للاستدلال في نماذج LRMs.

اقرأ المزيد
الذكاء الاصطناعي

نهج أبل لحماية الخصوصية في تحسين تقنيات الذكاء الاصطناعي

2025-04-14
نهج أبل لحماية الخصوصية في تحسين تقنيات الذكاء الاصطناعي

تلتزم أبل بحماية خصوصية المستخدمين، حتى أثناء تحسين ميزات الذكاء الاصطناعي الخاصة بها مثل Genmoji وأدوات إنشاء الصور وأدوات الكتابة. تستخدم أبل تقنية الخصوصية التفاضلية، حيث تقوم بإخفاء بيانات المستخدمين للحصول فقط على معلومات الاتجاهات المجمعة، مثل مطالبات Genmoji الشائعة. بالنسبة لميزات الذكاء الاصطناعي التي تتعامل مع نصوص أطول مثل رسائل البريد الإلكتروني، تستخدم أبل بيانات اصطناعية. يُنشئ هذا البيانات الاصطناعية التي تحاكي أنماط بيانات المستخدمين الحقيقية لتدريب واختبار النماذج دون الوصول إلى محتوى البريد الإلكتروني الفعلي. يسمح هذا لأبل بتحسين تجارب المنتج مع ضمان أن تظل خصوصية المستخدم أولوية قصوى.

اقرأ المزيد

اختراق جديد من أبل في مجال الذكاء الاصطناعي: التحكم الدقيق في النماذج التوليدية باستخدام نقل التنشيط (AcT)

2025-04-10
اختراق جديد من أبل في مجال الذكاء الاصطناعي: التحكم الدقيق في النماذج التوليدية باستخدام نقل التنشيط (AcT)

طور باحثو تعلم الآلة في أبل تقنية جديدة تُسمى نقل التنشيط (AcT)، وهي تقنية توفر تحكمًا دقيقًا في النماذج التوليدية الكبيرة، بما في ذلك نماذج اللغات الكبيرة ونماذج انتشار النص إلى صورة، دون الحاجة إلى تدريب مكثف للموارد مثل RLHF أو الضبط الدقيق. يقوم AcT بتوجيه تنشيطات النموذج باستخدام نظرية النقل الأمثل، محققًا تحكمًا لا يعتمد على الوسائط مع الحد الأدنى من تكلفة الحوسبة. تُظهر التجارب تحسينات كبيرة في تقليل السمية، وتحفيز الصدق في نماذج اللغات الكبيرة، والتحكم في الأنماط في توليد الصور. يمهد AcT الطريق لنماذج توليدية أكثر أمانًا وموثوقية.

اقرأ المزيد

SeedLM: طريقة جديدة لضغط أوزان نماذج اللغة الكبيرة باستخدام مُولِّدات الأرقام شبه العشوائية

2025-04-06
SeedLM: طريقة جديدة لضغط أوزان نماذج اللغة الكبيرة باستخدام مُولِّدات الأرقام شبه العشوائية

تُعيق التكاليف العالية لوقت التشغيل نماذج اللغة الكبيرة (LLMs) ، مما يحد من نشرها على نطاق واسع. يقدم باحثو ميتا SeedLM ، وهي طريقة جديدة لضغط ما بعد التدريب تستخدم بذورًا من مُولِّد أرقام شبه عشوائي لترميز وضغط أوزان النماذج. أثناء الاستنتاج ، يستخدم SeedLM سجل تحويل الخطي ذو التغذية الراجعة (LFSR) لإنشاء مصفوفة عشوائية بكفاءة ، تُجمع خطيًا مع معاملات مضغوطة لإعادة بناء كتل الأوزان. هذا يقلل من الوصول إلى الذاكرة ويستغل دورات الحوسبة الخاملة ، مما يُسرّع المهام المقيدة بالذاكرة عن طريق تبادل الحوسبة مقابل عدد أقل من عمليات الوصول إلى الذاكرة. على عكس طرق الحالة الفنية التي تتطلب بيانات معايرة ، فإن SeedLM خالية من البيانات وتعمم بشكل جيد عبر مهام متنوعة. تُظهر التجارب على نموذج Llama 3 70B الصعب دقة صفرية في ضغط 4 و 3 بتات تتطابق مع أو تتجاوز طرق الحالة الفنية ، مع الحفاظ على أداء مماثل لمعايير FP16. تُظهر اختبارات FPGA أن SeedLM 4 بتات تقترب من زيادة سرعة تصل إلى 4 أضعاف مقارنة بمعيار FP16 Llama 2/3 مع زيادة حجم النموذج.

اقرأ المزيد
الذكاء الاصطناعي