ترميز صوتي مُفهرس قابل للتفسير: نحو تمثيل صوتي أكثر سهولة في الفهم
2025-02-01
تُقدم هذه الورقة نموذجًا أوليًا لمُشفّر صوتي يهدف إلى ترميز الصوت كمجموعة مُفرّغة من الأحداث وأوقات حدوثها. ويستخدم هذا النموذج افتراضات أساسية تعتمد على الفيزياء لنمذجة الهجوم والرنين الفيزيائي لكل من الآلة والغرفة، على أمل تشجيع تمثيل مُفرّغ، ومُقتصد، وسهل الفهم. يعمل النموذج عن طريق إزالة الطاقة بشكل مُتكرر من مخطط الطيف المدخل، لإنتاج متجهات الأحداث ومتجهات one-hot التي تُمثل وقت الحدوث. ويستخدم المُفسّر هذه المتجهات لإعادة بناء الصوت. تُظهر نتائج التجارب قدرة النموذج على تحليل الصوت، لكن هناك مجال للتحسين، مثل تحسين جودة إعادة البناء وتقليل الأحداث الزائدة.
الذكاء الاصطناعي
ترميز الصوت