Nvidia发布巨型多语言AI数据集Granary,助力欧洲语言AI翻译

2025-08-24
Nvidia发布巨型多语言AI数据集Granary,助力欧洲语言AI翻译

Nvidia发布了名为Granary的巨型开源多语言语音数据集,包含超过百万小时的音频数据,用于训练AI翻译模型。该数据集支持近所有欧盟官方语言以及俄语和乌克兰语,尤其注重那些数据匮乏的语言,例如克罗地亚语、爱沙尼亚语和马耳他语。同时,Nvidia还发布了Canary和Parakeet两个新的AI模型,分别针对高精度和高速低延迟翻译任务优化。Granary数据集显著减少了训练AI模型所需的数据量,为开发更具包容性的语音技术奠定了基础。