Sesame AI lanza modelo de voz conversacional de 1 billón de parámetros
Sesame AI Labs ha lanzado CSM (Conversational Speech Model), un modelo de generación de voz de 1 billón de parámetros basado en la arquitectura Llama. CSM genera códigos de audio RVQ a partir de entradas de texto y audio, y su punto de control está disponible en Hugging Face. También se proporciona una demostración interactiva de voz y un espacio Hugging Face para probar la generación de audio. Si bien es capaz de producir voces variadas, CSM no se ha ajustado a voces específicas y tiene un soporte multilingüe limitado. Sesame AI enfatiza su uso solo para fines de investigación y educativos, prohibiendo la suplantación de identidad, la desinformación y las actividades ilegales.