VibeVoice:开源长篇多说话者语音合成框架
2025-09-03
VibeVoice是一个新颖的开源文本转语音框架,能够生成富有表现力、篇幅较长、多说话者的对话音频,例如播客。它解决了传统TTS系统在可扩展性、说话人一致性和自然轮流对话等方面的挑战。其核心创新在于采用7.5 Hz超低帧率的连续语音分词器(声学和语义),在有效保持音频保真度的同时大幅提高了长序列处理的计算效率。VibeVoice采用下一个标记扩散框架,利用大型语言模型(LLM)理解文本上下文和对话流程,并利用扩散头生成高保真声学细节。该模型可以合成长达90分钟、最多4个不同说话人的语音,超过了许多现有模型通常1-2个说话人的限制。
AI