OuteAI/OuteTTS-0.1-350M 语音合成模型
2024-11-09
OuteTTS-0.1-350M是一个基于LLaMa架构的文本转语音合成模型,使用纯语言建模方法,无需外部适配器或复杂架构。它通过精心设计的提示和音频标记实现了高质量的语音合成,并具有声音克隆功能。该模型采用三步音频处理方法:使用WavTokenizer进行音频标记化、CTC强制对齐以及结构化提示创建。目前版本为v0.1,存在一些限制,例如词汇量限制、仅支持字符串输入、输出质量可能不稳定以及对长句子的准确性较低。
30
未分类
LLaMa