开源唇读语音识别框架Auto-AVSR：实现最先进的音频视觉语音识别

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

开源唇读语音识别框架Auto-AVSR：实现最先进的音频视觉语音识别

2025-02-03

Auto-AVSR是一个开源的端到端音频视觉语音识别 (AV-ASR) 框架，专注于唇读。该框架在LRS3基准测试中实现了视觉语音识别 (VSR) 20.3% 和音频语音识别 (ASR) 1.0% 的字错误率 (WER)。它提供了用于训练、评估和API调用的代码和教程，并支持在多种设备上进行训练。用户可以使用预训练模型或从头开始训练，并能根据自身需求调整超参数。

(github.com)

AI 唇读

苹果紧急叫停谷歌垄断案请求被驳回

无恐慌Rust：能否用Rust替代C语言编写底层系统库？