Dia: Ein 1,6 Milliarden Parameter Text-to-Speech-Modell von Nari Labs
Nari Labs stellt Dia vor, ein 1,6 Milliarden Parameter Text-to-Speech-Modell, das hochrealistische Dialoge direkt aus Transkripten generieren kann. Benutzer können Emotionen und Ton durch Konditionierung der Ausgabe auf Audio steuern, und das Modell erzeugt sogar nonverbale Hinweise wie Lachen und Husten. Um die Forschung zu beschleunigen, sind vortrainierte Modell-Checkpoints und Inferenzcode auf Hugging Face verfügbar. Eine Demo-Seite vergleicht Dia mit ElevenLabs Studio und Sesame CSM-1B. Es benötigt derzeit etwa 10 GB VRAM und GPU-Unterstützung (CPU-Unterstützung in Kürze), erzeugt aber auf einer A4000 GPU ungefähr 40 Token/Sekunde. Eine quantisierte Version ist für eine verbesserte Speichereffizienz geplant. Das Modell ist unter der Apache License 2.0 lizenziert und verbietet strikt den Missbrauch, wie z. B. Identitätsmissbrauch, die Erzeugung irreführender Inhalte oder illegale Aktivitäten.