Auto-AVSR:オープンソースの唇読み音声認識フレームワーク
2025-02-03
Auto-AVSRは、視覚的な音声(唇読み)に焦点を当てた、エンドツーエンドのオーディオビジュアル音声認識(AV-ASR)のためのオープンソースフレームワークです。LRS3ベンチマークで、視覚音声認識(VSR)で20.3%、音声認識(ASR)で1.0%の単語誤り率(WER)を達成しました。トレーニング、評価、APIの使用に関するコードとチュートリアルを提供し、マルチノードトレーニングをサポートしています。ユーザーは、事前トレーニングされたモデルを利用するか、ゼロからトレーニングし、必要に応じてハイパーパラメータをカスタマイズできます。
AI
唇読み