Auto-AVSR: 오픈소스 립리딩 음성 인식 프레임워크
2025-02-03
Auto-AVSR은 시각적 음성(립리딩)에 중점을 둔 엔드투엔드 오디오비주얼 음성 인식(AV-ASR)을 위한 오픈소스 프레임워크입니다. LRS3 벤치마크에서 시각적 음성 인식(VSR) 20.3%, 음성 인식(ASR) 1.0%의 단어 오류율(WER)을 달성했습니다. 교육, 평가, API 사용에 대한 코드와 튜토리얼을 제공하며, 멀티노드 교육을 지원합니다. 사용자는 사전 훈련된 모델을 사용하거나 처음부터 교육하고 필요에 따라 하이퍼파라미터를 사용자 지정할 수 있습니다.
AI
립리딩