Voxtral: Modelos de compreensão de fala de código aberto revolucionam a interação humano-computador

A Voxtral lançou dois modelos de ponta em compreensão de fala: uma variante de 24B parâmetros para produção e uma variante de 3B parâmetros para implantações em edge, ambas licenciadas sob Apache 2.0. Esses modelos possuem precisão de transcrição superior, manipulam áudio de formato longo (até 40 minutos), possuem recursos integrados de perguntas e respostas e resumo, e oferecem suporte multilíngue nativo. Significativamente, a Voxtral supera APIs comparáveis em custo, tornando a inteligência de fala de alta qualidade acessível e controlável em escala. Ela preenche a lacuna entre sistemas de código aberto com altas taxas de erro e APIs proprietárias caras, oferecendo recursos de chamada de função que traduzem diretamente comandos de voz em ações do sistema. A Voxtral está preparada para revolucionar a interação humano-computador.