Dia: Ein 1,6 Milliarden Parameter Text-to-Speech-Modell von Nari Labs

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Dia: Ein 1,6 Milliarden Parameter Text-to-Speech-Modell von Nari Labs

2025-04-21

Nari Labs stellt Dia vor, ein 1,6 Milliarden Parameter Text-to-Speech-Modell, das hochrealistische Dialoge direkt aus Transkripten generieren kann. Benutzer können Emotionen und Ton durch Konditionierung der Ausgabe auf Audio steuern, und das Modell erzeugt sogar nonverbale Hinweise wie Lachen und Husten. Um die Forschung zu beschleunigen, sind vortrainierte Modell-Checkpoints und Inferenzcode auf Hugging Face verfügbar. Eine Demo-Seite vergleicht Dia mit ElevenLabs Studio und Sesame CSM-1B. Es benötigt derzeit etwa 10 GB VRAM und GPU-Unterstützung (CPU-Unterstützung in Kürze), erzeugt aber auf einer A4000 GPU ungefähr 40 Token/Sekunde. Eine quantisierte Version ist für eine verbesserte Speichereffizienz geplant. Das Modell ist unter der Apache License 2.0 lizenziert und verbietet strikt den Missbrauch, wie z. B. Identitätsmissbrauch, die Erzeugung irreführender Inhalte oder illegale Aktivitäten.

(github.com)

AFRINIC-Wahl: Ein Machtkampf um die Kontrolle über die Zukunft des Internets in Afrika

Lösung des URI-Problems in dezentralen sozialen Medien