Nari Labs发布16亿参数文本转语音模型Dia
2025-04-21
Nari Labs发布了名为Dia的16亿参数文本转语音模型,该模型能够直接从文本转录生成高度逼真的对话,并支持通过音频调节情绪和语气,甚至能生成诸如笑声、咳嗽等非语言交流。为了加速研究,该团队提供了预训练模型检查点和推理代码,模型权重托管在Hugging Face上。此外,还提供了一个演示页面,将Dia与ElevenLabs Studio和Sesame CSM-1B进行比较。Dia需要约10GB的VRAM才能运行,目前仅支持GPU运行,未来将添加CPU支持和量化版本以提高效率。该项目遵循Apache License 2.0许可,并明确禁止用于身份盗用、生成误导性内容以及任何非法或恶意活动。
AI