Open-Source Sprachwechselerkennungsmodell: Smart Turn

2025-03-06
Open-Source Sprachwechselerkennungsmodell: Smart Turn

Das Pipecat-Team hat Smart Turn veröffentlicht, ein Open-Source-Modell zur Erkennung von Sprachwechseln, das darauf ausgelegt ist, bestehende, auf der Sprachaktivitätserkennung (VAD) basierende Sprach-KI-Systeme zu verbessern. Es nutzt Meta AI's Wav2Vec2-BERT als Basis mit einem einfachen zweischichtigen Klassifizierungskopf. Derzeit unterstützt das Modell nur Englisch und befindet sich in einem frühen Proof-of-Concept-Stadium. Das Team ist jedoch zuversichtlich, dass die Leistung schnell verbessert werden kann. Es lädt die Community ein, zur Modellentwicklung und Erweiterung der Sprachunterstützung beizutragen.

KI