Auto-AVSR: إطار مفتوح المصدر لقراءة الشفاه والتعرف على الكلام

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-02-03

Auto-AVSR هو إطار مفتوح المصدر للتعرف على الكلام من خلال الصوت والصورة (AV-ASR) من طرف إلى طرف، مع التركيز على الكلام المرئي (قراءة الشفاه). حقق معدل خطأ الكلمات (WER) بنسبة 20.3% للتعرف على الكلام المرئي (VSR) و 1.0% للتعرف على الكلام الصوتي (ASR) على مقياس LRS3. يوفر الكود والدروس التعليمية للتدريب والتقييم واستخدام واجهة برمجة التطبيقات، مع دعم التدريب على عقد متعددة. يمكن للمستخدمين استخدام النماذج المدربة مسبقًا أو التدريب من الصفر، وتخصيص المعلمات التشغيلية حسب الحاجة.