CSM de Sesame : une voix presque humaine, mais encore en développement

2025-03-05
CSM de Sesame : une voix presque humaine, mais encore en développement

Une vidéo présentant le nouveau modèle vocal de Sesame, CSM, est devenue virale. Basé sur l'architecture Llama de Meta, le modèle génère des conversations remarquablement réalistes, brouillant la frontière entre humain et IA. Utilisant un transformateur unimodal, multimodal, il traite simultanément le texte et l'audio, contrairement aux méthodes traditionnelles en deux étapes. Bien que des tests à l'aveugle montrent une qualité presque humaine pour la parole isolée, le contexte conversationnel révèle une préférence pour les voix humaines réelles. Le cofondateur de Sesame, Brendan Iribe, reconnaît les défis persistants liés au ton, au rythme et aux interruptions, admettant que le modèle est encore en développement, mais exprimant son optimisme pour l'avenir.

IA voix IA