セサミの飛躍:会話音声における不気味の谷を超える
2025-03-02
セサミの研究チームは、より自然で感情豊かなAI音声アシスタントを作る上で大きな進歩を遂げました。彼らの会話音声モデル(CSM)は、マルチモーダル学習を用いて、文脈、感情、会話履歴を考慮することで、文脈に適した会話を生成します。この技術は従来のテキスト読み上げ(TTS)モデルを凌駕し、客観的および主観的な評価を通じて、自然さや表現力の向上を示しています。しかし、現時点では主に英語をサポートしており、将来的にはより多くの言語に対応し、複雑な会話構造の理解をさらに深める予定です。
続きを読む