VibeVoice: Modelo Open Source de Texto para Fala de Longa Duração e Múltiplos Falantes

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-09-03

VibeVoice é uma nova estrutura de código aberto para gerar áudio conversacional expressivo, longo e com múltiplos falantes, como podcasts, a partir de texto. Ele aborda desafios em sistemas tradicionais de texto para fala (TTS), como escalabilidade, consistência do falante e alternância natural de turnos. Uma inovação principal é o uso de tokenizadores de fala contínua (acústicos e semânticos) com uma taxa de quadros ultrabaixa de 7,5 Hz. Esses tokenizadores preservam a fidelidade de áudio enquanto aumentam significativamente a eficiência computacional para o processamento de sequências longas. O VibeVoice emprega uma estrutura de difusão de próximo token, utilizando um Modelo de Linguagem Ampla (LLM) para entender o contexto textual e o fluxo de diálogo, e uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade. O modelo pode sintetizar fala de até 90 minutos de duração com até 4 falantes distintos, superando os limites típicos de 1 a 2 falantes de muitos modelos anteriores.