CSM do Sesame: Fala quase humana, mas ainda em desenvolvimento
2025-03-05

Um vídeo mostrando o novo modelo de fala do Sesame, CSM, viralizou. Construído na arquitetura Llama do Meta, o modelo gera conversas notavelmente realistas, confundindo a linha entre humano e IA. Usando um transformador unimodal, multimodal, ele processa simultaneamente texto e áudio, ao contrário dos métodos tradicionais de duas etapas. Embora testes cegos mostrem qualidade quase humana para fala isolada, o contexto conversacional revela uma preferência por vozes humanas reais. O cofundador do Sesame, Brendan Iribe, reconhece os desafios contínuos com tom, ritmo e interrupções, admitindo que o modelo ainda está em desenvolvimento, mas expressando otimismo para o futuro.