CSM de Sesame : une voix presque humaine, mais encore en développement

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-03-05

Une vidéo présentant le nouveau modèle vocal de Sesame, CSM, est devenue virale. Basé sur l'architecture Llama de Meta, le modèle génère des conversations remarquablement réalistes, brouillant la frontière entre humain et IA. Utilisant un transformateur unimodal, multimodal, il traite simultanément le texte et l'audio, contrairement aux méthodes traditionnelles en deux étapes. Bien que des tests à l'aveugle montrent une qualité presque humaine pour la parole isolée, le contexte conversationnel révèle une préférence pour les voix humaines réelles. Le cofondateur de Sesame, Brendan Iribe, reconnaît les défis persistants liés au ton, au rythme et aux interruptions, admettant que le modèle est encore en développement, mais exprimant son optimisme pour l'avenir.