开源唇读语音识别框架Auto-AVSR:实现最先进的音频视觉语音识别

2025-02-03
开源唇读语音识别框架Auto-AVSR:实现最先进的音频视觉语音识别

Auto-AVSR是一个开源的端到端音频视觉语音识别 (AV-ASR) 框架,专注于唇读。该框架在LRS3基准测试中实现了视觉语音识别 (VSR) 20.3% 和音频语音识别 (ASR) 1.0% 的字错误率 (WER)。它提供了用于训练、评估和API调用的代码和教程,并支持在多种设备上进行训练。用户可以使用预训练模型或从头开始训练,并能根据自身需求调整超参数。

AI 唇读