搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 矿池 QB64 更多

Moshi: 实时对话的语音文本基础模型 (github.com)

Moshi是一个基于Mimi神经音频编解码器的语音文本基础模型和全双工对话框架。它以流式方式处理音频,并预测与其自身语音相对应的文本标记,从而提高了生成质量。Moshi具有低延迟特性,在L4 GPU上实际延迟低至200毫秒。该模型提供PyTorch、MLX和Rust三种版本,并发布了在男性和女性合成语音上微调的模型。

评论已经关闭!