Sesame: Superando o Vale Inapropriado em Voz Conversacional

2025-03-02
Sesame: Superando o Vale Inapropriado em Voz Conversacional

A equipe de pesquisa da Sesame fez progressos significativos na criação de assistentes de voz de IA mais naturais e emocionalmente inteligentes. Seu Modelo de Fala Conversacional (CSM) usa aprendizado multimodal para gerar fala contextualmente apropriada, considerando contexto, emoção e histórico da conversa. Essa tecnologia supera os modelos tradicionais de texto para fala (TTS) e demonstra melhorias na naturalidade e expressividade por meio de avaliações objetivas e subjetivas. No entanto, o modelo atualmente suporta principalmente inglês, com planos futuros de expansão para mais idiomas e aprimoramento de sua compreensão de estruturas conversacionais complexas.