Auto-AVSR: إطار مفتوح المصدر لقراءة الشفاه والتعرف على الكلام

2025-02-03
Auto-AVSR: إطار مفتوح المصدر لقراءة الشفاه والتعرف على الكلام

Auto-AVSR هو إطار مفتوح المصدر للتعرف على الكلام من خلال الصوت والصورة (AV-ASR) من طرف إلى طرف، مع التركيز على الكلام المرئي (قراءة الشفاه). حقق معدل خطأ الكلمات (WER) بنسبة 20.3% للتعرف على الكلام المرئي (VSR) و 1.0% للتعرف على الكلام الصوتي (ASR) على مقياس LRS3. يوفر الكود والدروس التعليمية للتدريب والتقييم واستخدام واجهة برمجة التطبيقات، مع دعم التدريب على عقد متعددة. يمكن للمستخدمين استخدام النماذج المدربة مسبقًا أو التدريب من الصفر، وتخصيص المعلمات التشغيلية حسب الحاجة.

الذكاء الاصطناعي قراءة الشفاه