SesameのCSM:人間に近い音声、だがまだ発展途上

2025-03-05
SesameのCSM:人間に近い音声、だがまだ発展途上

Sesame社の新しい音声モデルCSMを紹介する動画が話題になっています。Meta社のLlamaアーキテクチャに基づいて構築されたこのモデルは、驚くほどリアルな会話を生成し、人間とAIの境界を曖昧にしています。従来の2段階方式とは異なり、単一ステージのマルチモーダル・トランスフォーマーを使用して、テキストとオーディオを同時に処理します。盲検テストでは、単独の音声サンプルに関しては人間の声との区別が困難なほどですが、会話の文脈が加わると、人間の声の方が依然として好まれる傾向にあります。Sesameの共同設立者であるBrendan Iribe氏は、トーン、ペース、割り込みに関する課題を認めており、モデルはまだ開発中であるものの、将来への楽観的な見方を示しています。

AI