Dia: نموذج تحويل النص إلى كلام من Nari Labs بـ 1.6 مليار معلمة
تُقدم Nari Labs نموذج Dia لتحويل النص إلى كلام، وهو نموذج يحتوي على 1.6 مليار معلمة، قادر على توليد حوارات واقعية للغاية مباشرة من النصوص. يمكن للمستخدمين التحكم في المشاعر والنبرة من خلال تحديد الناتج على الصوت، حتى أن النموذج ينتج إشارات غير لفظية مثل الضحك والسعال. لتسريع البحث، تتوفر نقاط تفتيش النموذج المدرب مسبقًا ورمز الاستدلال على Hugging Face. تقارن صفحة العرض التوضيحي Dia مع ElevenLabs Studio و Sesame CSM-1B. على الرغم من أنه يتطلب حاليًا حوالي 10 جيجابايت من ذاكرة الوصول العشوائي ودعم وحدة معالجة الرسومات (سيتم إضافة دعم وحدة المعالجة المركزية قريبًا)، إلا أن Dia يولّد حوالي 40 رمزًا في الثانية على وحدة معالجة الرسومات A4000. من المخطط إصدار نسخة مُكمّاة لتحسين كفاءة الذاكرة. يخضع النموذج للترخيص بموجب ترخيص Apache 2.0 ويحظر بشكل صارم إساءة الاستخدام، مثل انتحال الهوية، وتوليد محتوى مضلل، أو الأنشطة غير القانونية.