Auto-AVSR: Framework de Reconhecimento de Fala por Leitura Labial de Código Aberto

2025-02-03
Auto-AVSR: Framework de Reconhecimento de Fala por Leitura Labial de Código Aberto

O Auto-AVSR é um framework de código aberto para reconhecimento de fala audio-visual (AV-ASR) de ponta a ponta, com foco na fala visual (leitura labial). Ele atingiu uma taxa de erro de palavras (WER) de 20,3% para reconhecimento de fala visual (VSR) e 1,0% para reconhecimento de fala de áudio (ASR) no benchmark LRS3. Oferece código e tutoriais para treinamento, avaliação e uso da API, com suporte para treinamento em vários nós. Os usuários podem usar modelos pré-treinados ou treinar do zero, personalizando os hiperparâmetros conforme necessário.