Voxtral: Modelos de comprensión del habla de código abierto revolucionan la interacción humano-computadora

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-07-16

Voxtral ha lanzado dos modelos de vanguardia en comprensión del habla: una variante de 24B parámetros para producción y una variante de 3B parámetros para implementaciones en edge, ambas con licencia Apache 2.0. Estos modelos cuentan con una precisión de transcripción superior, manejan audio de formato largo (hasta 40 minutos), tienen funciones integradas de preguntas y respuestas y resumen, y ofrecen soporte multilingüe nativo. Significativamente, Voxtral supera a las API comparables en costo, haciendo que la inteligencia de habla de alta calidad sea accesible y controlable a escala. Llena la brecha entre los sistemas de código abierto con altas tasas de error y las API propietarias costosas, ofreciendo capacidades de llamada a funciones que traducen directamente los comandos de voz en acciones del sistema. Voxtral está preparada para revolucionar la interacción humano-computadora.