VibeVoice: 오픈소스 장시간 다중 화자 TTS

2025-09-03

VibeVoice는 텍스트로부터 팟캐스트와 같은 표현력이 풍부한 장시간 다중 화자 대화 오디오를 생성하기 위한 새로운 오픈소스 프레임워크입니다. 기존 TTS(텍스트 음성 변환) 시스템의 확장성, 화자 일관성, 자연스러운 턴테이킹과 같은 과제를 해결합니다. 주요 혁신으로 7.5Hz의 초저 프레임률로 작동하는 연속 음성 토크나이저(음향 및 의미)를 사용하여 오디오 충실도를 유지하면서 장시간 시퀀스 처리의 계산 효율성을 크게 향상시킵니다. VibeVoice는 다음 토큰 확산 프레임워크를 사용하여 대규모 언어 모델(LLM)로 텍스트 컨텍스트와 대화 흐름을 이해하고 확산 헤드로 고충실도 음향 세부 정보를 생성합니다. 이 모델은 최대 4명의 서로 다른 화자로 최대 90분의 음성 합성이 가능하며 기존 모델의 일반적인 1~2명 화자 제한을 뛰어넘습니다.

AI