Auto-AVSR：オープンソースの唇読み音声認識フレームワーク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-02-03

Auto-AVSRは、視覚的な音声（唇読み）に焦点を当てた、エンドツーエンドのオーディオビジュアル音声認識（AV-ASR）のためのオープンソースフレームワークです。LRS3ベンチマークで、視覚音声認識（VSR）で20.3％、音声認識（ASR）で1.0％の単語誤り率（WER）を達成しました。トレーニング、評価、APIの使用に関するコードとチュートリアルを提供し、マルチノードトレーニングをサポートしています。ユーザーは、事前トレーニングされたモデルを利用するか、ゼロからトレーニングし、必要に応じてハイパーパラメータをカスタマイズできます。