オープンソース音声ターン検出モデル:Smart Turn

2025-03-06
オープンソース音声ターン検出モデル:Smart Turn

Pipecatチームは、音声活動検出(VAD)ベースの音声AIシステムを改善するために設計された、オープンソースの音声ターン検出モデルSmart Turnをリリースしました。Meta AIのWav2Vec2-BERTをバックボーンとして使用し、シンプルな2層分類ヘッドを追加しています。現時点では英語のみをサポートしており、初期の概念実証段階ですが、チームはパフォーマンスが急速に向上すると確信しています。彼らは、モデルの改善と、言語サポートおよび機能の拡張に貢献するようコミュニティを招待しています。

AI