Moshi: 实时对话的语音文本基础模型

2024-09-19

Moshi是一个基于Mimi神经音频编解码器的语音文本基础模型和全双工对话框架。它以流式方式处理音频,并预测与其自身语音相对应的文本标记,从而提高了生成质量。Moshi具有低延迟特性,在L4 GPU上实际延迟低至200毫秒。该模型提供PyTorch、MLX和Rust三种版本,并发布了在男性和女性合成语音上微调的模型。

30
未分类