Sesame AI, 10억 매개변수 대화형 음성 모델 공개
Sesame AI Labs는 Llama 아키텍처를 기반으로 하는 10억 매개변수의 대화형 음성 모델 CSM(Conversational Speech Model)을 발표했습니다. CSM은 텍스트 및 오디오 입력으로부터 RVQ 오디오 코드를 생성합니다. CSM의 체크포인트는 Hugging Face에서 공개되어 있으며, 인터랙티브한 음성 데모와 오디오 생성을 테스트하기 위한 Hugging Face 스페이스도 제공됩니다. 다양한 음성을 생성할 수 있지만, 특정 음성에 미세 조정되지 않았으며, 다국어 지원은 제한적입니다. Sesame AI는 연구 및 교육 목적으로만 사용할 것을 강조하며, 사칭, 허위 정보 유포, 불법 행위를 금지합니다.