VibeVoice:オープンソースの長尺、マルチスピーカーTTS

2025-09-03

VibeVoiceは、テキストからポッドキャストのような、表現力豊かな長尺のマルチスピーカー会話音声を作成するための、新しいオープンソースフレームワークです。従来のテキスト読み上げ(TTS)システムにおける、スケーラビリティ、話者の一貫性、自然なターン制といった課題に対処します。重要なイノベーションとして、7.5Hzという超低フレームレートで動作する連続音声トークナイザー(音響と意味)を採用しており、音声の忠実度を維持しながら、長シーケンスの処理における計算効率を大幅に向上させます。VibeVoiceは、次のトークン拡散フレームワークを使用し、大規模言語モデル(LLM)でテキストコンテキストとダイアログの流れを理解し、拡散ヘッドで高忠実度の音響詳細を生成します。このモデルは、最大4人の異なる話者で最大90分の音声合成が可能で、従来のモデルの一般的な1〜2話者の制限を超えています。

AI