Modèle de détection de tour de parole open source : Smart Turn
2025-03-06
L'équipe Pipecat a publié Smart Turn, un modèle de détection de tour de parole open source conçu pour améliorer les systèmes d'IA vocale existants basés sur la détection d'activité vocale (VAD). Utilisant le Wav2Vec2-BERT de Meta AI comme base, avec une tête de classification simple à deux couches, le modèle prend actuellement en charge l'anglais et en est à un stade initial de preuve de concept. Cependant, l'équipe est convaincue que les performances peuvent être rapidement améliorées. Elle invite la communauté à contribuer à l'amélioration du modèle et à l'élargissement de sa prise en charge linguistique et de ses fonctionnalités.
IA