リアルタイムSV2TTS:話者検証からの転移学習による多話者テキスト音声合成

2025-09-14
リアルタイムSV2TTS:話者検証からの転移学習による多話者テキスト音声合成

このオープンソースプロジェクトは、話者検証からの転移学習を用いたリアルタイム多話者テキスト音声合成(SV2TTS)を実装しています。これは著者の修士論文に基づいており、3段階の深層学習フレームワークです。まず、数秒間の音声から音声のデジタル表現を作成し、次にこの表現を基準として任意のテキストから音声を生成します。このプロジェクトは古く、商用製品より音質が劣る可能性がありますが、WindowsとLinuxをサポートし、GPUによる高速化が推奨されています。詳細なインストールと使用方法が提供され、さまざまなデータセットにも対応しています。

開発 転移学習