Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Auto-AVSR : Framework open source de reconnaissance vocale par lecture labiale

2025-02-03

Auto-AVSR est un framework open source de reconnaissance vocale audio-visuelle (AV-ASR) de bout en bout, axé sur la parole visuelle (lecture labiale). Il a atteint un taux d'erreur de mots (WER) de 20,3 % pour la reconnaissance vocale visuelle (VSR) et de 1,0 % pour la reconnaissance vocale audio (ASR) sur le benchmark LRS3. Il fournit du code et des tutoriels pour l'entraînement, l'évaluation et l'utilisation de l'API, avec prise en charge de l'entraînement multinœuds. Les utilisateurs peuvent utiliser des modèles pré-entraînés ou entraîner un modèle à partir de zéro, en personnalisant les hyperparamètres selon leurs besoins.

(github.com)

IA lecture labiale