VibeVoice : Modèle open source de synthèse vocale longue et multi-intervenants

2025-09-03

VibeVoice est un nouveau framework open source conçu pour générer des audios conversationnels expressifs, longs et multi-intervenants, tels que des podcasts, à partir de texte. Il s'attaque aux défis des systèmes traditionnels de synthèse vocale (TTS), notamment en termes d'évolutivité, de cohérence des voix et de prise de parole naturelle. L'innovation principale réside dans l'utilisation de tokeniseurs de parole continue (acoustiques et sémantiques) fonctionnant à une fréquence d'images ultra-basse de 7,5 Hz. Ces tokeniseurs préservent la fidélité audio tout en augmentant considérablement l'efficacité de calcul pour le traitement de longues séquences. VibeVoice utilise une architecture de diffusion de jeton suivant, exploitant un grand modèle linguistique (LLM) pour comprendre le contexte textuel et le déroulement du dialogue, et une tête de diffusion pour générer des détails acoustiques de haute fidélité. Le modèle peut synthétiser jusqu'à 90 minutes de parole avec jusqu'à 4 intervenants distincts, dépassant les limites typiques de 1 à 2 intervenants de nombreux modèles précédents.

IA