Moshi: 实时对话的语音文本基础模型

Moshi: 实时对话的语音文本基础模型 (github.com)

Moshi是一个基于Mimi神经音频编解码器的语音文本基础模型和全双工对话框架。它以流式方式处理音频，并预测与其自身语音相对应的文本标记，从而提高了生成质量。Moshi具有低延迟特性，在L4 GPU上实际延迟低至200毫秒。该模型提供PyTorch、MLX和Rust三种版本，并发布了在男性和女性合成语音上微调的模型。

上一篇: DistrictCon 废品场挑战赛：寻找最佳（或最差）的零日漏洞

下一篇: 铁幕背后的调试

评论已经关闭！

返回首页