Webtagr - Sumário de Notícias de Tecnologia

Cerebras Lança Planos de Codificação de IA Ultra-Rápidos: Pro e Max

2025-08-02

A Cerebras apresenta dois novos planos de codificação de IA: Code Pro (US$ 50/mês) e Code Max (US$ 200/mês), ambos alimentados pelo Qwen3-Coder da Alibaba, um modelo de codificação de peso aberto líder. Com velocidades de até 2.000 tokens por segundo, uma janela de contexto de 131.000 tokens e sem bloqueio de IDE proprietária ou limites semanais, ele oferece geração de código instantânea. Os usuários podem integrar-se aos seus IDEs de IA preferidos para um fluxo de trabalho contínuo. O Code Pro é ideal para desenvolvedores independentes e projetos menores, enquanto o Code Max atende às necessidades de desenvolvedores em tempo integral com alto volume.

Modelo de raciocínio de IA de fronteira mais rápido do mundo agora disponível na Cerebras Inference Cloud

2025-07-23

A Cerebras Systems anunciou hoje o lançamento do Qwen3-235B com suporte de contexto completo de 131K em sua plataforma de inferência em nuvem. Esse marco representa um avanço no desempenho do modelo de IA, combinando inteligência de nível de fronteira com velocidade sem precedentes a um décimo do custo de modelos de código fechado, transformando fundamentalmente a implantação de IA empresarial. O Qwen3-235B atinge velocidades de 1.500 tokens por segundo, reduzindo os tempos de resposta de 1-2 minutos para 0,6 segundos. Seu contexto expandido de 131K permite a geração de código de nível de produção, manipulando grandes bases de código e documentos complexos. Uma parceria com a Cline integra os modelos Qwen diretamente em seu editor VS Code, oferecendo melhorias significativas de velocidade.

Cerebras quebra recorde de velocidade de inferência com Llama 4 Maverick 400B

2025-05-31

A Cerebras Systems alcançou uma velocidade de inferência inovadora de mais de 2.500 tokens por segundo (TPS) no modelo de 400B parâmetros Llama 4 Maverick da Meta, mais do que o dobro do desempenho da Nvidia. Essa velocidade recorde, verificada independentemente pela Artificial Analysis, é crucial para aplicações de IA como agentes, geração de código e raciocínio complexo, reduzindo significativamente a latência e melhorando a experiência do usuário. Ao contrário da solução da Nvidia, que dependia de otimizações personalizadas indisponíveis, o desempenho da Cerebras é facilmente acessível por meio da próxima API da Meta, oferecendo uma solução superior para desenvolvedores e usuários corporativos de IA.