Nari Labs发布16亿参数文本转语音模型Dia

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Nari Labs发布16亿参数文本转语音模型Dia

2025-04-21

Nari Labs发布了名为Dia的16亿参数文本转语音模型，该模型能够直接从文本转录生成高度逼真的对话，并支持通过音频调节情绪和语气，甚至能生成诸如笑声、咳嗽等非语言交流。为了加速研究，该团队提供了预训练模型检查点和推理代码，模型权重托管在Hugging Face上。此外，还提供了一个演示页面，将Dia与ElevenLabs Studio和Sesame CSM-1B进行比较。Dia需要约10GB的VRAM才能运行，目前仅支持GPU运行，未来将添加CPU支持和量化版本以提高效率。该项目遵循Apache License 2.0许可，并明确禁止用于身份盗用、生成误导性内容以及任何非法或恶意活动。

(github.com)

AFRINIC选举：一场关于非洲互联网未来控制权的争夺战

去中心化社交媒体的URI方案难题