Dia : Un modèle texte-parole de 1,6 milliard de paramètres de Nari Labs
Nari Labs présente Dia, un modèle texte-parole de 1,6 milliard de paramètres capable de générer des dialogues très réalistes directement à partir de transcriptions. Les utilisateurs peuvent contrôler les émotions et le ton en conditionnant la sortie à l'audio, et le modèle produit même des indices non verbaux comme des rires et de la toux. Pour accélérer la recherche, des checkpoints de modèles pré-entraînés et du code d'inférence sont disponibles sur Hugging Face. Une page de démonstration compare Dia à ElevenLabs Studio et Sesame CSM-1B. Bien qu'il nécessite actuellement environ 10 Go de VRAM et un support GPU (support CPU prochainement), Dia génère environ 40 jetons par seconde sur une GPU A4000. Une version quantifiée est prévue pour améliorer l'efficacité de la mémoire. Le modèle est sous licence Apache 2.0 et interdit strictement toute utilisation abusive, comme l'usurpation d'identité, la génération de contenu trompeur ou les activités illégales.