Modelo de Detección de Turno de Voz Abierto: Smart Turn

2025-03-06
Modelo de Detección de Turno de Voz Abierto: Smart Turn

El equipo de Pipecat ha lanzado Smart Turn, un modelo de detección de turno de voz de código abierto diseñado para mejorar los sistemas de IA de voz existentes basados en la detección de actividad de voz (VAD). Utilizando el Wav2Vec2-BERT de Meta AI como base, con una cabeza de clasificación simple de dos capas, el modelo actualmente admite inglés y se encuentra en una etapa inicial de prueba de concepto. Sin embargo, el equipo confía en que el rendimiento se puede mejorar rápidamente. Invitan a la comunidad a contribuir para mejorar el modelo y ampliar su soporte de idioma y capacidades.

IA