CSM de Sesame: Voz casi humana, pero aún en desarrollo

2025-03-05
CSM de Sesame: Voz casi humana, pero aún en desarrollo

Un video mostrando el nuevo modelo de voz de Sesame, CSM, se ha vuelto viral. Construido sobre la arquitectura Llama de Meta, el modelo genera conversaciones notablemente realistas, difuminando la línea entre humano e IA. Usando un transformador unimodal, multimodal, procesa simultáneamente texto y audio, a diferencia de los métodos tradicionales de dos etapas. Si bien las pruebas a ciegas muestran una calidad casi humana para el habla aislada, el contexto conversacional revela una preferencia por voces humanas reales. El cofundador de Sesame, Brendan Iribe, reconoce los desafíos continuos con el tono, el ritmo y las interrupciones, admitiendo que el modelo aún está en desarrollo, pero expresando optimismo para el futuro.