VibeVoice: Modelo de Texto a Voz Abierto de Formato Largo y Múltiples Hablantes
VibeVoice es un nuevo marco de código abierto para generar audio conversacional expresivo, largo y con múltiples hablantes, como podcasts, a partir de texto. Aborda los desafíos en los sistemas tradicionales de texto a voz (TTS), como la escalabilidad, la consistencia del hablante y la alternancia natural de turnos. Una innovación clave es el uso de tokenizadores de voz continua (acústicos y semánticos) con una velocidad de fotogramas ultrabaja de 7,5 Hz. Estos tokenizadores mantienen la fidelidad del audio mientras aumentan significativamente la eficiencia computacional para el procesamiento de secuencias largas. VibeVoice emplea una arquitectura de difusión de token siguiente, utilizando un Modelo de Lenguaje Grande (LLM) para comprender el contexto textual y el flujo de diálogo, y una cabeza de difusión para generar detalles acústicos de alta fidelidad. El modelo puede sintetizar hasta 90 minutos de habla con hasta 4 hablantes distintos, superando los límites típicos de 1 a 2 hablantes de muchos modelos anteriores.