Cerebras quebra recorde de velocidade de inferência com Llama 4 Maverick 400B
2025-05-31

A Cerebras Systems alcançou uma velocidade de inferência inovadora de mais de 2.500 tokens por segundo (TPS) no modelo de 400B parâmetros Llama 4 Maverick da Meta, mais do que o dobro do desempenho da Nvidia. Essa velocidade recorde, verificada independentemente pela Artificial Analysis, é crucial para aplicações de IA como agentes, geração de código e raciocínio complexo, reduzindo significativamente a latência e melhorando a experiência do usuário. Ao contrário da solução da Nvidia, que dependia de otimizações personalizadas indisponíveis, o desempenho da Cerebras é facilmente acessível por meio da próxima API da Meta, oferecendo uma solução superior para desenvolvedores e usuários corporativos de IA.
IA