Auto-AVSR : Framework open source de reconnaissance vocale par lecture labiale
2025-02-03
Auto-AVSR est un framework open source de reconnaissance vocale audio-visuelle (AV-ASR) de bout en bout, axé sur la parole visuelle (lecture labiale). Il a atteint un taux d'erreur de mots (WER) de 20,3 % pour la reconnaissance vocale visuelle (VSR) et de 1,0 % pour la reconnaissance vocale audio (ASR) sur le benchmark LRS3. Il fournit du code et des tutoriels pour l'entraînement, l'évaluation et l'utilisation de l'API, avec prise en charge de l'entraînement multinœuds. Les utilisateurs peuvent utiliser des modèles pré-entraînés ou entraîner un modèle à partir de zéro, en personnalisant les hyperparamètres selon leurs besoins.