SV2TTS en temps réel : apprentissage par transfert pour la synthèse vocale multilocuteur
Ce projet open source implémente la synthèse vocale multilocuteur en temps réel (SV2TTS) utilisant l’apprentissage par transfert à partir de la vérification du locuteur, basé sur la thèse de maîtrise de l’auteur. Il s’agit d’un framework d’apprentissage profond en trois étapes : création d’une représentation numérique de la voix à partir de courts extraits audio, puis utilisation de cette représentation pour générer de la parole à partir de texte arbitraire. Bien que le projet soit ancien et puisse avoir une qualité inférieure aux alternatives commerciales, il prend en charge Windows et Linux, avec une accélération GPU recommandée. Des instructions d’installation et d’utilisation détaillées sont fournies, ainsi qu’une prise en charge de divers jeux de données.