SV2TTS en tiempo real: Aprendizaje por Transferencia para la Síntesis de Texto a Voz Multilocutor

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-09-14

Este proyecto de código abierto implementa la síntesis de texto a voz (SV2TTS) multilingüe en tiempo real utilizando el aprendizaje por transferencia desde la verificación del hablante, basado en la tesis de maestría del autor. Es un marco de aprendizaje profundo en tres etapas: crear una representación digital de la voz a partir de clips de audio cortos, y luego usar esta representación para generar voz a partir de texto arbitrario. Si bien el proyecto es antiguo y puede tener una calidad inferior a las alternativas comerciales, admite Windows y Linux, y se recomienda la aceleración de GPU. Se proporcionan instrucciones detalladas de instalación y uso, junto con soporte para varios conjuntos de datos.