Nari Labsが16億パラメーターの音声合成モデル「Dia」を発表

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-21

Nari Labsは、16億パラメーターのテキスト音声変換モデル「Dia」を発表しました。このモデルは、テキストから非常にリアルな会話を直接生成でき、音声で感情やトーンを制御することも可能です。笑い声や咳などの非言語的なコミュニケーションも生成できます。研究の加速化のため、事前学習済みモデルのチェックポイントと推論コードがHugging Faceで公開されています。デモページでは、DiaをElevenLabs StudioとSesame CSM-1Bと比較しています。約10GBのVRAMとGPUが必要です（CPUサポートは近日追加予定）。A4000 GPUでは、1秒あたり約40トークンを生成します。メモリ効率を向上させるために、量子化バージョンも計画されています。このプロジェクトはApache License 2.0ライセンスに従い、なりすまし、誤解を招くコンテンツの生成、違法または悪意のある活動への使用は固く禁じられています。