Voxtral:开源语音理解模型,颠覆人机交互
2025-07-16
Voxtral发布了两个先进的语音理解模型,分别为24B和3B版本,均采用Apache 2.0许可证开源。该模型不仅具备高精度转录能力,还支持长文本上下文处理、内置问答和摘要功能,以及多种语言的自动检测和理解。Voxtral在成本方面也极具竞争力,价格低于同类API的一半,为各种规模的应用提供了高质量的语音智能。其功能还包括直接调用后端函数,根据语音意图触发操作,将语音交互转化为可执行的系统命令。Voxtral旨在弥合开源语音系统准确性和闭源API成本之间的差距,为所有人提供开放、经济且可用于生产的语音理解能力。
AI