Auto-AVSR: Framework de Reconocimiento de Habla por Lectura Labial de Código Abierto

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Auto-AVSR: Framework de Reconocimiento de Habla por Lectura Labial de Código Abierto

2025-02-03

Auto-AVSR es un framework de código abierto de reconocimiento de habla audio-visual (AV-ASR) de extremo a extremo, centrado en el habla visual (lectura labial). Alcanzó una tasa de error de palabras (WER) del 20,3% para el reconocimiento de habla visual (VSR) y del 1,0% para el reconocimiento de habla de audio (ASR) en el benchmark LRS3. Proporciona código y tutoriales para el entrenamiento, la evaluación y el uso de la API, con soporte para entrenamiento en varios nodos. Los usuarios pueden utilizar modelos preentrenados o entrenar desde cero, personalizando los hiperparámetros según sea necesario.

(github.com)

IA reconocimiento de habla lectura labial

Apple falla en su intento de detener el juicio por monopolio de Google

Rust Sin Pánico: ¿Puede Rust Reemplazar a C en la Programación de Sistemas de Bajo Nivel?