VibeVoice: Open-Source Framework für lange, mehrstimmige Text-to-Speech-Synthese
VibeVoice ist ein neuartiges Open-Source-Framework zur Erzeugung ausdrucksstarker, langer, mehrstimmiger Konversations-Audios wie Podcasts aus Text. Es adressiert die Herausforderungen traditioneller Text-to-Speech (TTS)-Systeme, insbesondere in Bezug auf Skalierbarkeit, Sprecherkonsistenz und natürliches Turn-Taking. Eine Kerninnovation von VibeVoice ist die Verwendung von Continuous-Speech-Tokenizern (akustisch und semantisch) mit einer ultraniedrigen Bildrate von 7,5 Hz. Diese Tokenizer erhalten die Audiotreue effektiv bei gleichzeitig deutlich gesteigerter Rechenleistung für die Verarbeitung langer Sequenzen. VibeVoice verwendet ein Next-Token-Diffusions-Framework, wobei ein Large Language Model (LLM) den Textkontext und den Dialogfluss versteht und ein Diffusionskopf hochfeine akustische Details generiert. Das Modell kann Sprache mit einer Länge von bis zu 90 Minuten mit bis zu 4 verschiedenen Sprechern synthetisieren und übertrifft damit die typischen Grenzen von 1-2 Sprechern vieler vorheriger Modelle.