芝麻AI发布10亿参数会话语音模型CSM
2025-03-18
芝麻AI实验室发布了10亿参数的会话语音模型CSM(Conversational Speech Model),该模型基于Llama架构,能够根据文本和音频输入生成RVQ音频代码。CSM已在Hugging Face上公开其检查点,并提供了一个交互式语音演示和Hugging Face空间用于测试音频生成。该模型虽然可以生成多种声音,但尚未针对特定声音进行微调,并且不支持多语言。芝麻AI强调该模型仅供研究和教育用途,并禁止用于模仿他人、制造虚假信息或从事非法活动。
AI
芝麻AI