SV2TTS em tempo real: Aprendizado por Transferência para Síntese de Texto para Fala Multilocutor
2025-09-14
Este projeto de código aberto implementa síntese de texto para fala (SV2TTS) multilocutora em tempo real usando aprendizado por transferência a partir de verificação de locutor, baseado na tese de mestrado do autor. É uma estrutura de aprendizado profundo em três estágios: criar uma representação digital de voz a partir de clipes de áudio curtos, e então usar essa representação para gerar fala a partir de texto arbitrário. Embora o projeto seja mais antigo e possa ter qualidade inferior a alternativas comerciais, ele suporta Windows e Linux, com aceleração de GPU recomendada. São fornecidas instruções detalhadas de instalação e uso, juntamente com suporte para vários conjuntos de dados.
Desenvolvimento
aprendizado por transferência