실시간 SV2TTS: 화자 인증으로부터의 전이 학습을 통한 다화자 텍스트 음성 합성

2025-09-14
실시간 SV2TTS: 화자 인증으로부터의 전이 학습을 통한 다화자 텍스트 음성 합성

이 오픈소스 프로젝트는 화자 인증으로부터의 전이 학습을 사용한 실시간 다화자 텍스트 음성 합성(SV2TTS)을 구현합니다. 저자의 석사 논문을 기반으로 하며, 3단계의 심층 학습 프레임워크입니다. 먼저, 몇 초의 오디오에서 음성의 디지털 표현을 생성하고, 다음으로 이 표현을 기준으로 임의의 텍스트에서 음성을 생성합니다. 이 프로젝트는 오래되었으며 상용 제품보다 음질이 떨어질 수 있지만, Windows와 Linux를 지원하며 GPU 가속이 권장됩니다. 자세한 설치 및 사용 방법이 제공되며, 다양한 데이터 세트도 지원합니다.

개발 전이 학습