오픈소스 음성 턴 감지 모델: Smart Turn
2025-03-06
Pipecat팀은 음성 활동 감지(VAD) 기반 음성 AI 시스템을 개선하기 위해 설계된 오픈소스 음성 턴 감지 모델 Smart Turn을 출시했습니다. Meta AI의 Wav2Vec2-BERT를 백본으로 사용하고 간단한 2계층 분류 헤드를 추가했습니다. 현재는 영어만 지원하며 초기 개념 증명 단계에 있지만, 팀은 성능이 빠르게 향상될 것이라고 확신하고 있습니다. 그들은 모델 개선과 언어 지원 및 기능 확장에 기여하도록 커뮤니티를 초대하고 있습니다.
AI