Voxtral : Des modèles de compréhension de la parole open source révolutionnent l'interaction homme-machine
Voxtral a publié deux modèles de pointe de compréhension de la parole : une variante de 24 milliards de paramètres pour la production et une variante de 3 milliards de paramètres pour les déploiements en périphérie, toutes deux sous licence Apache 2.0. Ces modèles offrent une précision de transcription supérieure, gèrent l’audio long (jusqu’à 40 minutes), intègrent des fonctionnalités de questions-réponses et de résumé, et proposent une prise en charge multilingue native. De manière significative, Voxtral surpasse les API comparables en termes de coût, rendant l’intelligence vocale de haute qualité accessible et contrôlable à grande échelle. Elle comble le fossé entre les systèmes open source avec des taux d’erreur élevés et les API propriétaires coûteuses, offrant des capacités d’appel de fonctions qui traduisent directement les commandes vocales en actions système. Voxtral est prête à révolutionner l’interaction homme-machine.