Sesame : franchir le seuil de la vallée dérangeante dans la voix conversationnelle

2025-03-02
Sesame : franchir le seuil de la vallée dérangeante dans la voix conversationnelle

L'équipe de recherche de Sesame a fait des progrès significatifs dans la création d'assistants vocaux IA plus naturels et émotionnellement intelligents. Leur modèle de parole conversationnel (CSM) utilise l'apprentissage multimodal pour générer une parole contextuellement appropriée en tenant compte du contexte, des émotions et de l'historique de la conversation. Cette technologie surpasse les modèles traditionnels de synthèse vocale (TTS) et démontre des améliorations en termes de naturel et d'expressivité grâce à des évaluations objectives et subjectives. Cependant, le modèle prend actuellement principalement en charge l'anglais, avec des plans futurs pour étendre la prise en charge à d'autres langues et améliorer encore sa compréhension des structures conversationnelles complexes.

Lire plus