Dia: Modelo de Texto a Voz de 1.6B de Parámetros de Nari Labs
Nari Labs presenta Dia, un modelo de texto a voz con 1.6 mil millones de parámetros, capaz de generar diálogos altamente realistas directamente desde transcripciones. Los usuarios pueden controlar la emoción y el tono condicionando la salida al audio, y el modelo incluso produce señales no verbales como risas y tos. Para acelerar la investigación, los checkpoints de modelos preentrenados y el código de inferencia están disponibles en Hugging Face. Una página de demostración compara Dia con ElevenLabs Studio y Sesame CSM-1B. Si bien actualmente requiere alrededor de 10 GB de VRAM y soporte de GPU (soporte de CPU próximamente), Dia genera aproximadamente 40 tokens por segundo en una GPU A4000. Se planea una versión cuantizada para mejorar la eficiencia de la memoria. El modelo está licenciado bajo la Licencia Apache 2.0 y prohíbe estrictamente el mal uso, como el robo de identidad, la generación de contenido engañoso o actividades ilegales.