Sesame: Superando el Valle Inquietante en Voz Conversacional

2025-03-02
Sesame: Superando el Valle Inquietante en Voz Conversacional

El equipo de investigación de Sesame ha logrado avances significativos en la creación de asistentes de voz de IA más naturales y emocionalmente inteligentes. Su Modelo de Habla Conversacional (CSM) utiliza el aprendizaje multimodal para generar habla contextualmente apropiada, considerando el contexto, las emociones y el historial de la conversación. Esta tecnología supera los modelos tradicionales de texto a voz (TTS) y demuestra mejoras en la naturalidad y la expresividad a través de evaluaciones objetivas y subjetivas. Sin embargo, el modelo actualmente admite principalmente inglés, con planes futuros de expansión a más idiomas y de mejorar aún más su comprensión de las estructuras conversacionales complejas.