세서미의 CSM: 거의 사람과 같은 음성, 하지만 아직 개발 중
2025-03-05
세서미의 새로운 음성 모델 CSM을 소개하는 영상이 화제입니다. 메타의 Llama 아키텍처를 기반으로 구축된 이 모델은 놀라울 정도로 사실적인 대화를 생성하여 인간과 AI의 경계를 모호하게 만듭니다. 기존의 2단계 방식과 달리, 단일 단계의 멀티모달 트랜스포머를 사용하여 텍스트와 오디오를 동시에 처리합니다. 맹검 테스트에서는 단일 음성 샘플에 대해서는 인간의 목소리와 구별하기 어려울 정도이지만, 대화의 맥락이 추가되면 여전히 인간의 목소리가 선호되는 경향이 있습니다. 세서미의 공동 설립자인 Brendan Iribe는 톤, 페이스, 중단에 대한 과제를 인정하고 있으며, 모델은 아직 개발 중이지만 미래에 대한 낙관적인 전망을 보여주고 있습니다.
AI