لومينا-ديموو: نموذج انتشار متعدد الوسائط ثوري مفتوح المصدر
2025-09-12
لومينا-ديموو هو نموذج أساسي مفتوح المصدر لتوليد وفهم متعدد الوسائط سلس. على عكس النماذج الموحدة السابقة، فإنه يستخدم نهجًا لنمذجة الانتشار المنفصل بالكامل لجميع وسائط الإدخال والإخراج، مما يؤدي إلى كفاءة أخذ عينات أعلى بكثير مقارنة بالنماذج ذاتية التراجع أو الهجينة. إنه يتعامل ببراعة مع المهام مثل النص إلى صورة، وتوليد الصورة إلى صورة (بما في ذلك التحرير، والتوليد القائم على الموضوع، والرسم)، وفهم الصورة، محققًا أداءً متطورًا في العديد من المعايير. الكود ونقاط التحكم متاحة للجمهور لتعزيز البحث في نمذجة الانتشار متعدد الوسائط والمنفصل.
اقرأ المزيد
الذكاء الاصطناعي