Auto-AVSR: Open-Source Framework für Lippenlesende Spracherkennung
2025-02-03
Auto-AVSR ist ein Open-Source-Framework für die Ende-zu-Ende Audio-Visuelle Spracherkennung (AV-ASR) mit Fokus auf visuelle Sprache (Lippenlesen). Es erreicht eine Wortfehlerquote (WER) von 20,3 % für die visuelle Spracherkennung (VSR) und 1,0 % für die Audio-Spracherkennung (ASR) auf dem LRS3-Benchmark. Es bietet Code und Tutorials für Training, Evaluierung und API-Nutzung und unterstützt Multi-Node-Training. Benutzer können vortrainierte Modelle verwenden oder von Grund auf trainieren und Hyperparameter nach Bedarf anpassen.
KI
Lippenlesen