VibeVoice: إطار عمل مفتوح المصدر لتوليد الصوت من النصوص، طويل الأمد ومتعدد المتحدثين

2025-09-03

VibeVoice هو إطار عمل مفتوح المصدر جديد مصمم لتوليد صوت محادثة معبر، طويل الأمد، ومتعدد المتحدثين، مثل البودكاست، من النصوص. يعالج هذا الإطار التحديات في أنظمة تحويل النص إلى كلام (TTS) التقليدية، خاصة فيما يتعلق بالقابليّة للتوسّع، واتساق المتحدثين، وتبادل الأدوار الطبيعي. وتتمثل إحدى الابتكارات الرئيسية في VibeVoice في استخدام مُقسّمات الكلام المستمر (الصوتية والدلالية) التي تعمل بمعدل إطار منخفض للغاية يبلغ 7.5 هرتز. تحافظ هذه المُقسّمات على دقة الصوت بكفاءة مع تعزيز الكفاءة الحسابية بشكل كبير لمعالجة التسلسلات الطويلة. يستخدم VibeVoice إطار عمل انتشار الرمز التالي، مستخدمًا نموذجًا لغويًا كبيرًا (LLM) لفهم سياق النص وتدفق الحوار، ورأس انتشار لتوليد تفاصيل صوتية عالية الدقة. يمكن للنموذج توليد صوت يصل إلى 90 دقيقة مع ما يصل إلى 4 متحدثين مختلفين، متجاوزًا حدود 1-2 متحدثين في العديد من النماذج السابقة.

اقرأ المزيد
الذكاء الاصطناعي

RenderFormer: عرض عصبي مع إضاءة عالمية بدون تدريب لكل مشهد

2025-06-01

RenderFormer عبارة عن خط أنابيب عرض عصبي يُرَجّع صورة مباشرةً من تمثيل مشهد قائم على المثلثات مع تأثيرات إضاءة عالمية كاملة، دون الحاجة إلى تدريب أو ضبط دقيق لكل مشهد. وبدلاً من اتباع نهج قائم على الفيزياء، يُوَضّع العرض كتحويل من تسلسل إلى تسلسل: يتم تحويل تسلسل من الرموز التي تُمثّل مثلثات ذات خصائص انعكاس إلى تسلسل من رموز الإخراج التي تُمثّل رقعة صغيرة من وحدات البكسل. ويستخدم خط أنابيب من مرحلتين قائم على مُحوّل: مرحلة مستقلة عن الرؤية تُمَثّل نقل الضوء من مثلث إلى مثلث، ومرحلة تعتمد على الرؤية تُحوّل حزم الأشعة إلى قيم بكسل موجهة من قبل المرحلة المستقلة عن الرؤية. ليست هناك حاجة إلى ترقيم أو تتبع الأشعة.

اقرأ المزيد
الذكاء الاصطناعي الإضاءة العالمية

التزامن بدون خوف في بايثون: مشروع Lungfish

2025-05-18

يقوم فريق مشروع فيرونا بتطوير Lungfish، وهو نموذج ملكية جديد لبايثون مصمم لتوفير إدارة آمنة وفعالة للذاكرة والزامنية. في البداية، قاموا بإنشاء نماذج أولية لمفاهيم الملكية القائمة على المناطق باستخدام لغة لعب، FrankenScript، وشاركوا نتائجهم مع فريق Faster CPython. حاليًا، يقومون بتنفيذ نموذج عميق من عدم التغيير بشكل تدريجي، بما في ذلك عدم التغيير العميق في CPython، وإدارة القمامة غير القابلة للتغيير بشكل دوري، والتكامل مع إرسال الرسائل بين المترجمات الفرعية. سيمهد هذا الطريق لتطبيق نموذج الملكية القائم على المناطق في بايثون، بهدف تبسيط البرمجة المتزامنة وتجنب مشاكل التزامن. يستند المشروع بشكل كبير إلى لغات مثل Rust، ولكنه يستخدم عمليات فحص ديناميكية للتوافق مع كتابة بايثون الديناميكية.

اقرأ المزيد
التطوير نموذج الملكية

تحليل الفيديو القائم على الذكاء الاصطناعي: متجر صغير وبيئة منزلية

2025-02-20

يقوم مقطعان من الذكاء الاصطناعي بتحليل مقاطع فيديو من كاونتر متجر صغير وبيئة منزلية. يصف المقطع الأول عميلاً يشتري وجبات خفيفة ومشروبات باستخدام عرض "PICK 5 FOR $8.00"، مع التركيز على التفاعل بين العميل والموظف. يوضح المقطع الثاني يدًا تُرتب نبتة في أصيص، مع خلفية منزلية تتضمن كتبًا وأوعية وسقاية إلخ، مما ينقل أجواء منزلية هادئة. يُظهر كلا المقطعين قدرة الذكاء الاصطناعي على فهم محتوى الفيديو من خلال وصفات مفصلة للأفعال.

اقرأ المزيد
الذكاء الاصطناعي تحليل الفيديو فهم المشهد