Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Auto-AVSR: Open-Source Framework für Lippenlesende Spracherkennung

2025-02-03

Auto-AVSR ist ein Open-Source-Framework für die Ende-zu-Ende Audio-Visuelle Spracherkennung (AV-ASR) mit Fokus auf visuelle Sprache (Lippenlesen). Es erreicht eine Wortfehlerquote (WER) von 20,3 % für die visuelle Spracherkennung (VSR) und 1,0 % für die Audio-Spracherkennung (ASR) auf dem LRS3-Benchmark. Es bietet Code und Tutorials für Training, Evaluierung und API-Nutzung und unterstützt Multi-Node-Training. Benutzer können vortrainierte Modelle verwenden oder von Grund auf trainieren und Hyperparameter nach Bedarf anpassen.

(github.com)

KI Lippenlesen