AudioX: نموذج مُوحّد لترجمة الانتشار من أي شيء إلى صوت وموسيقى

2025-04-14

تعاني نماذج توليد الصوت والموسيقى الحالية من قيود مثل التشغيل المعزول عبر الوسائط، ونقص بيانات التدريب متعددة الوسائط عالية الجودة، وصعوبة دمج المدخلات المتنوعة. يُعالج نموذج AudioX، وهو نموذج مُوحّد لترجمة الانتشار، هذه التحديات من خلال توليد صوت وموسيقى عامة عالية الجودة مع تحكم مرن باللغة الطبيعية ومعالجة سلسة للنصوص، والفيديو، والصور، والموسيقى، والصوت. تكمن أهم ابتكاراته في استراتيجية تدريب مُقنّعة متعددة الوسائط تُحسّن تعلم التمثيل متعدد الوسائط. للتغلب على ندرة البيانات، تم إنشاء مجموعتين بيانات شاملتين: vggsound-caps (190,000 تعليق صوتي) و V2M-caps (6,000,000 تعليق موسيقي). تُظهر التجارب المكثفة أن AudioX يُطابق أو يتجاوز النماذج المتخصصة المتطورة من حيث التنوع والتعامل مع وسائط الإدخال المتنوعة ضمن بنية موحدة.

الذكاء الاصطناعي توليد الموسيقى