Nari Labsが16億パラメーターの音声合成モデル「Dia」を発表

2025-04-21
Nari Labsが16億パラメーターの音声合成モデル「Dia」を発表

Nari Labsは、16億パラメーターのテキスト音声変換モデル「Dia」を発表しました。このモデルは、テキストから非常にリアルな会話を直接生成でき、音声で感情やトーンを制御することも可能です。笑い声や咳などの非言語的なコミュニケーションも生成できます。研究の加速化のため、事前学習済みモデルのチェックポイントと推論コードがHugging Faceで公開されています。デモページでは、DiaをElevenLabs StudioとSesame CSM-1Bと比較しています。約10GBのVRAMとGPUが必要です(CPUサポートは近日追加予定)。A4000 GPUでは、1秒あたり約40トークンを生成します。メモリ効率を向上させるために、量子化バージョンも計画されています。このプロジェクトはApache License 2.0ライセンスに従い、なりすまし、誤解を招くコンテンツの生成、違法または悪意のある活動への使用は固く禁じられています。