Voxtral: Modelos de comprensión del habla de código abierto revolucionan la interacción humano-computadora

2025-07-16
Voxtral: Modelos de comprensión del habla de código abierto revolucionan la interacción humano-computadora

Voxtral ha lanzado dos modelos de vanguardia en comprensión del habla: una variante de 24B parámetros para producción y una variante de 3B parámetros para implementaciones en edge, ambas con licencia Apache 2.0. Estos modelos cuentan con una precisión de transcripción superior, manejan audio de formato largo (hasta 40 minutos), tienen funciones integradas de preguntas y respuestas y resumen, y ofrecen soporte multilingüe nativo. Significativamente, Voxtral supera a las API comparables en costo, haciendo que la inteligencia de habla de alta calidad sea accesible y controlable a escala. Llena la brecha entre los sistemas de código abierto con altas tasas de error y las API propietarias costosas, ofreciendo capacidades de llamada a funciones que traducen directamente los comandos de voz en acciones del sistema. Voxtral está preparada para revolucionar la interacción humano-computadora.

IA