VibeVoice: إطار عمل مفتوح المصدر لتوليد الصوت من النصوص، طويل الأمد ومتعدد المتحدثين

2025-09-03

VibeVoice هو إطار عمل مفتوح المصدر جديد مصمم لتوليد صوت محادثة معبر، طويل الأمد، ومتعدد المتحدثين، مثل البودكاست، من النصوص. يعالج هذا الإطار التحديات في أنظمة تحويل النص إلى كلام (TTS) التقليدية، خاصة فيما يتعلق بالقابليّة للتوسّع، واتساق المتحدثين، وتبادل الأدوار الطبيعي. وتتمثل إحدى الابتكارات الرئيسية في VibeVoice في استخدام مُقسّمات الكلام المستمر (الصوتية والدلالية) التي تعمل بمعدل إطار منخفض للغاية يبلغ 7.5 هرتز. تحافظ هذه المُقسّمات على دقة الصوت بكفاءة مع تعزيز الكفاءة الحسابية بشكل كبير لمعالجة التسلسلات الطويلة. يستخدم VibeVoice إطار عمل انتشار الرمز التالي، مستخدمًا نموذجًا لغويًا كبيرًا (LLM) لفهم سياق النص وتدفق الحوار، ورأس انتشار لتوليد تفاصيل صوتية عالية الدقة. يمكن للنموذج توليد صوت يصل إلى 90 دقيقة مع ما يصل إلى 4 متحدثين مختلفين، متجاوزًا حدود 1-2 متحدثين في العديد من النماذج السابقة.

الذكاء الاصطناعي