Sesame AI、10億パラメーターの会話型音声モデルを発表

2025-03-18
Sesame AI、10億パラメーターの会話型音声モデルを発表

Sesame AI Labsは、Llamaアーキテクチャに基づく10億パラメーターの会話型音声モデルCSM(Conversational Speech Model)を発表しました。CSMは、テキストと音声入力からRVQオーディオコードを生成します。CSMのチェックポイントはHugging Faceで公開されており、インタラクティブな音声デモと、音声生成をテストするためのHugging Faceスペースも提供されています。様々な声を生成できますが、特定の声に微調整されておらず、多言語対応は限られています。Sesame AIは、研究と教育目的でのみ使用することを強調し、なりすまし、虚偽情報の拡散、違法行為を禁止しています。

AI