Auto-AVSR: Framework de Reconocimiento de Habla por Lectura Labial de Código Abierto

2025-02-03
Auto-AVSR: Framework de Reconocimiento de Habla por Lectura Labial de Código Abierto

Auto-AVSR es un framework de código abierto de reconocimiento de habla audio-visual (AV-ASR) de extremo a extremo, centrado en el habla visual (lectura labial). Alcanzó una tasa de error de palabras (WER) del 20,3% para el reconocimiento de habla visual (VSR) y del 1,0% para el reconocimiento de habla de audio (ASR) en el benchmark LRS3. Proporciona código y tutoriales para el entrenamiento, la evaluación y el uso de la API, con soporte para entrenamiento en varios nodos. Los usuarios pueden utilizar modelos preentrenados o entrenar desde cero, personalizando los hiperparámetros según sea necesario.