Dia: Modelo de Texto para Fala de 1,6B de Parâmetros da Nari Labs

2025-04-21
Dia: Modelo de Texto para Fala de 1,6B de Parâmetros da Nari Labs

A Nari Labs apresenta Dia, um modelo de texto para fala com 1,6 bilhão de parâmetros, capaz de gerar diálogos altamente realistas diretamente de transcrições. Os usuários podem controlar a emoção e o tom condicionando a saída ao áudio, e o modelo até produz sinais não verbais como risos e tosse. Para acelerar a pesquisa, checkpoints de modelos pré-treinados e código de inferência estão disponíveis no Hugging Face. Uma página de demonstração compara o Dia com o ElevenLabs Studio e o Sesame CSM-1B. Embora atualmente exija cerca de 10 GB de VRAM e suporte de GPU (suporte de CPU em breve), o Dia gera aproximadamente 40 tokens por segundo em uma GPU A4000. Uma versão quantizada está planejada para melhorar a eficiência da memória. O modelo é licenciado sob a Licença Apache 2.0 e proíbe estritamente o mau uso, como roubo de identidade, geração de conteúdo enganoso ou atividades ilegais.

IA