ترميز صوتي مُفهرس قابل للتفسير: نحو تمثيل صوتي أكثر سهولة في الفهم

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-02-01

تُقدم هذه الورقة نموذجًا أوليًا لمُشفّر صوتي يهدف إلى ترميز الصوت كمجموعة مُفرّغة من الأحداث وأوقات حدوثها. ويستخدم هذا النموذج افتراضات أساسية تعتمد على الفيزياء لنمذجة الهجوم والرنين الفيزيائي لكل من الآلة والغرفة، على أمل تشجيع تمثيل مُفرّغ، ومُقتصد، وسهل الفهم. يعمل النموذج عن طريق إزالة الطاقة بشكل مُتكرر من مخطط الطيف المدخل، لإنتاج متجهات الأحداث ومتجهات one-hot التي تُمثل وقت الحدوث. ويستخدم المُفسّر هذه المتجهات لإعادة بناء الصوت. تُظهر نتائج التجارب قدرة النموذج على تحليل الصوت، لكن هناك مجال للتحسين، مثل تحسين جودة إعادة البناء وتقليل الأحداث الزائدة.

الذكاء الاصطناعي ترميز الصوت