Sesame AI publie un modèle de parole conversationnel de 1 milliard de paramètres
2025-03-18
Les laboratoires Sesame AI ont publié CSM (Conversational Speech Model), un modèle de génération de parole de 1 milliard de paramètres basé sur l'architecture Llama. CSM génère des codes audio RVQ à partir d'entrées texte et audio, et son point de contrôle est disponible sur Hugging Face. Une démo vocale interactive et un espace Hugging Face pour tester la génération audio sont également fournis. Bien qu'il soit capable de produire des voix variées, CSM n'a pas été finement ajusté sur des voix spécifiques et a un support multilingue limité. Sesame AI souligne son utilisation à des fins de recherche et d'éducation uniquement, interdisant l'usurpation d'identité, la désinformation et les activités illégales.