세사미의 도약: 불쾌한 골짜기를 넘어선 대화 음성
2025-03-02

세사미 연구팀은 더욱 자연스럽고 감정적인 AI 음성 어시스턴트를 만드는 데 상당한 진전을 이루었습니다. 그들의 대화 음성 모델(CSM)은 다중 모드 학습을 사용하여 맥락, 감정, 대화 이력을 고려하여 맥락에 적합한 음성을 생성합니다. 이 기술은 기존의 텍스트 음성 변환(TTS) 모델을 능가하며, 객관적 및 주관적 평가를 통해 자연스러움과 표현력이 향상되었음을 보여줍니다. 하지만 현재는 주로 영어를 지원하며, 앞으로 더 많은 언어를 지원하고 복잡한 대화 구조에 대한 이해도를 높일 계획입니다.
더 보기