Voxtral: Open-Source Sprachverstehensmodelle revolutionieren die Mensch-Computer-Interaktion
Voxtral hat zwei hochmoderne Sprachverstehensmodelle veröffentlicht: eine 24B-Parameter-Variante für die Produktion und eine 3B-Parameter-Variante für Edge-Deployments, beide unter der Apache 2.0-Lizenz. Diese Modelle bieten eine überragende Transkriptionspräzision, verarbeiten Langform-Audio (bis zu 40 Minuten), verfügen über integrierte Frage-und-Antwort- und Zusammenfassungsfunktionen und bieten native mehrsprachige Unterstützung. Bedeutend ist, dass Voxtral vergleichbare APIs in Bezug auf die Kosten unterbietet, wodurch hochwertige Sprachintelligenz in großem Maßstab zugänglich und kontrollierbar wird. Es überbrückt die Lücke zwischen Open-Source-Systemen mit hohen Fehlerraten und teuren proprietären APIs und bietet Funktionsaufruffunktionen, die Sprachbefehle direkt in Systemactionen umsetzen. Voxtral ist bereit, die Mensch-Computer-Interaktion zu revolutionieren.