VibeVoice: Modelo Open Source de Texto para Fala de Longa Duração e Múltiplos Falantes

2025-09-03

VibeVoice é uma nova estrutura de código aberto para gerar áudio conversacional expressivo, longo e com múltiplos falantes, como podcasts, a partir de texto. Ele aborda desafios em sistemas tradicionais de texto para fala (TTS), como escalabilidade, consistência do falante e alternância natural de turnos. Uma inovação principal é o uso de tokenizadores de fala contínua (acústicos e semânticos) com uma taxa de quadros ultrabaixa de 7,5 Hz. Esses tokenizadores preservam a fidelidade de áudio enquanto aumentam significativamente a eficiência computacional para o processamento de sequências longas. O VibeVoice emprega uma estrutura de difusão de próximo token, utilizando um Modelo de Linguagem Ampla (LLM) para entender o contexto textual e o fluxo de diálogo, e uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade. O modelo pode sintetizar fala de até 90 minutos de duração com até 4 falantes distintos, superando os limites típicos de 1 a 2 falantes de muitos modelos anteriores.

IA