SV2TTS en tiempo real: Aprendizaje por Transferencia para la Síntesis de Texto a Voz Multilocutor
2025-09-14
Este proyecto de código abierto implementa la síntesis de texto a voz (SV2TTS) multilingüe en tiempo real utilizando el aprendizaje por transferencia desde la verificación del hablante, basado en la tesis de maestría del autor. Es un marco de aprendizaje profundo en tres etapas: crear una representación digital de la voz a partir de clips de audio cortos, y luego usar esta representación para generar voz a partir de texto arbitrario. Si bien el proyecto es antiguo y puede tener una calidad inferior a las alternativas comerciales, admite Windows y Linux, y se recomienda la aceleración de GPU. Se proporcionan instrucciones detalladas de instalación y uso, junto con soporte para varios conjuntos de datos.
Desarrollo
aprendizaje por transferencia