Echtzeit-SV2TTS: Transferlernen für mehrsprachige Text-zu-Sprache-Synthese

2025-09-14
Echtzeit-SV2TTS: Transferlernen für mehrsprachige Text-zu-Sprache-Synthese

Dieses Open-Source-Projekt implementiert eine Echtzeit-Text-zu-Sprache-Synthese (SV2TTS) für mehrere Sprecher mithilfe von Transferlernen aus der Sprecherverifikation, basierend auf der Masterarbeit des Autors. Es ist ein Deep-Learning-Framework in drei Stufen: Erstellung einer digitalen Sprachdarstellung aus kurzen Audioclips und anschließende Verwendung dieser Darstellung zur Generierung von Sprache aus beliebigem Text. Obwohl das Projekt älter ist und möglicherweise eine geringere Qualität als kommerzielle Alternativen aufweist, unterstützt es Windows und Linux, wobei eine GPU-Beschleunigung empfohlen wird. Detaillierte Installations- und Gebrauchsanweisungen sowie Unterstützung für verschiedene Datensätze werden bereitgestellt.

Entwicklung Transferlernen