芝麻AI语音模型:逼真对话,但仍需改进

2025-03-05
芝麻AI语音模型:逼真对话,但仍需改进

Gavin Purcell发布了一段视频,展示了芝麻公司基于Llama架构的全新语音模型CSM的惊人能力:该模型能生成与真人几乎无异的对话语音。该模型采用单阶段多模态Transformer架构,同时处理文本和音频,避免了传统语音模型的两阶段处理方式。虽然在非对话场景下,人类评估者难以区分CSM生成的语音和真人录音,但在对话场景下,真人语音仍更受青睐。芝麻公司联合创始人Brendan Iribe也承认该模型在语气、节奏和流畅性方面仍有改进空间,但对未来发展表示乐观。

AI