Voxtral: 오픈소스 음성 이해 모델이 인간-컴퓨터 상호 작용에 혁신을 가져오다

2025-07-16

Voxtral은 프로덕션을 위한 240억 매개변수 변형과 에지 배포를 위한 30억 매개변수 변형의 두 가지 최첨단 음성 이해 모델을 출시했습니다. 두 모델 모두 Apache 2.0 라이선스로 제공됩니다. 이러한 모델은 뛰어난 전사 정확도, 장시간 오디오(최대 40분) 처리, 내장된 질문과 답변 및 요약 기능, 기본적인 다국어 지원 기능을 갖추고 있습니다. 특히 중요한 점은 Voxtral이 유사한 API보다 비용이 저렴하여 고품질 음성 인텔리전스를 대규모로 이용하고 제어할 수 있다는 것입니다. 높은 오류율의 오픈소스 시스템과 값비싼 독점 API 간의 차이를 해소하고, 음성 명령을 시스템 작업으로 직접 변환하는 기능 호출 기능을 제공합니다. Voxtral은 인간-컴퓨터 상호 작용에 혁신을 일으킬 준비가 되어 있습니다.

(mistral.ai)

H-Nets: Transformer를 능가하는 계층적 네트워크 아키텍처

GLIBC hwcaps를 사용한 고성능 동적 디스패치