VibeVoice：开源长篇多说话者语音合成框架

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

VibeVoice：开源长篇多说话者语音合成框架

2025-09-03

VibeVoice是一个新颖的开源文本转语音框架，能够生成富有表现力、篇幅较长、多说话者的对话音频，例如播客。它解决了传统TTS系统在可扩展性、说话人一致性和自然轮流对话等方面的挑战。其核心创新在于采用7.5 Hz超低帧率的连续语音分词器（声学和语义），在有效保持音频保真度的同时大幅提高了长序列处理的计算效率。VibeVoice采用下一个标记扩散框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并利用扩散头生成高保真声学细节。该模型可以合成长达90分钟、最多4个不同说话人的语音，超过了许多现有模型通常1-2个说话人的限制。

(microsoft.github.io)

腾讯混元世界Voyager：基于单图生成一致性3D视频

戴尔AI服务器业务暴涨：抓住生成式AI浪潮