Nari Labs, 16억 파라미터 텍스트 음성 변환 모델 'Dia' 공개

2025-04-21
Nari Labs, 16억 파라미터 텍스트 음성 변환 모델 'Dia' 공개

Nari Labs가 16억 파라미터의 텍스트 음성 변환 모델 'Dia'를 공개했습니다. 이 모델은 텍스트에서 매우 사실적인 대화를 직접 생성할 수 있으며, 음성으로 감정과 톤을 제어할 수도 있습니다. 웃음소리나 기침과 같은 비언어적 의사소통도 생성할 수 있습니다. 연구 가속화를 위해 사전 학습된 모델 체크포인트와 추론 코드가 Hugging Face에서 공개되었습니다. 데모 페이지에서는 Dia를 ElevenLabs Studio와 Sesame CSM-1B와 비교하고 있습니다. 약 10GB의 VRAM과 GPU가 필요하며(CPU 지원은 곧 추가될 예정), A4000 GPU에서는 초당 약 40토큰을 생성합니다. 메모리 효율을 높이기 위해 양자화 버전도 계획 중입니다. 이 프로젝트는 Apache License 2.0 라이선스를 따르며, 사칭, 오해의 소지가 있는 콘텐츠 생성, 불법 또는 악의적인 활동에 사용하는 것은 엄격히 금지됩니다.

AI