Qwen-Image: Modelo de Fundação de Imagem de 20B Parâmetros Lançado

2025-08-05
Qwen-Image: Modelo de Fundação de Imagem de 20B Parâmetros Lançado

A Alibaba DAMO Academy lançou o Qwen-Image, um modelo de fundação de imagem de 20 bilhões de parâmetros que avança significativamente na renderização de texto complexo e na edição precisa de imagens. Ele possui renderização de texto de alta fidelidade em vários idiomas (incluindo inglês e chinês), preservando o significado semântico e o realismo visual durante as edições. O Qwen-Image supera os modelos existentes em vários benchmarks de geração e edição de imagens. Demonstrações mostraram suas capacidades: gerar imagens com tipografia e layouts chineses intrincados, criar slides de PPT detalhados e até mesmo lidar com renderização de texto bilíngue, destacando suas robustas capacidades de processamento de texto e geração de imagens.

Leia mais

Alibaba lança modelo de código Qwen3-Coder com 480B de parâmetros

2025-07-23
Alibaba lança modelo de código Qwen3-Coder com 480B de parâmetros

A Alibaba lançou o Qwen3-Coder, um poderoso modelo de código com 480 bilhões de parâmetros, alcançando resultados de ponta em tarefas de codificação inteligente. Com suporte nativo para comprimento de contexto de 256K tokens (expansível para 1M), o Qwen3-Coder se destaca em tarefas de codificação e tarefas inteligentes. Junto com o modelo, eles lançaram o Qwen Code, uma ferramenta de linha de comando para integração perfeita. O uso extensivo de aprendizado por reforço em larga escala melhorou significativamente as taxas de sucesso de execução de código e a capacidade de resolução de problemas complexos.

Leia mais

Qwen VLo: Modelo Multimodal Unificado que Entende e Cria Imagens

2025-06-28
Qwen VLo: Modelo Multimodal Unificado que Entende e Cria Imagens

A Alibaba DAMO Academy apresenta o Qwen VLo, um novo modelo multimodal que não apenas entende o conteúdo de imagens, mas também gera imagens de alta qualidade com base nesse entendimento. Empregando um método de geração progressivo, ele constrói imagens gradualmente da esquerda para a direita e de cima para baixo, garantindo um resultado final coerente e harmonioso. O Qwen VLo suporta instruções multilíngues, lida com tarefas complexas como edição de imagens e transferência de estilo, e pode até entender o conteúdo de suas próprias imagens geradas. Embora esteja atualmente em versão de prévia, suas poderosas capacidades multimodais mostram o imenso potencial da IA na geração de imagens.

Leia mais

Qwen3: Um LLM Multilíngue com Modos de Pensamento Alternados

2025-04-28
Qwen3: Um LLM Multilíngue com Modos de Pensamento Alternados

A Alibaba DAMO Academy lançou o Qwen3, seu mais recente modelo de linguagem grande, oferecendo vários tamanhos de modelo com pesos abertos. O Qwen3 possui modos de "pensamento" e "não pensamento" alternáveis, permitindo que os usuários controlem a profundidade do raciocínio e a velocidade com base na complexidade da tarefa. Ele suporta 119 idiomas e dialetos. Capacidades aprimoradas de codificação e agentes também estão incluídas, juntamente com diversas ferramentas de implantação e desenvolvimento.

Leia mais
IA

QVQ-Max: Um Modelo de IA com Visão e Inteligência

2025-04-06
QVQ-Max: Um Modelo de IA com Visão e Inteligência

QVQ-Max é um novo modelo de raciocínio visual que não apenas 'entende' imagens e vídeos, mas também analisa e raciocina com essas informações para resolver vários problemas. De problemas de matemática a questões do dia a dia, de código de programação a criação artística, o QVQ-Max demonstra capacidades impressionantes. Ele se destaca na observação detalhada, raciocínio profundo e aplicação flexível em vários cenários, como auxiliar no trabalho, aprendizado e vida diária. O desenvolvimento futuro se concentrará em melhorar a precisão do reconhecimento, aprimorar o manuseio de tarefas de várias etapas e expandir os métodos de interação para se tornar um agente visual verdadeiramente prático.

Leia mais

Qwen2.5-VL-32B: Modelo de linguagem visual de 32 bilhões de parâmetros mais alinhado com preferências humanas

2025-03-24
Qwen2.5-VL-32B: Modelo de linguagem visual de 32 bilhões de parâmetros mais alinhado com preferências humanas

Após o grande sucesso da série de modelos Qwen2.5-VL, lançamos o novo modelo de linguagem visual de 32 bilhões de parâmetros, Qwen2.5-VL-32B-Instruct, de código aberto. Este modelo apresenta melhorias significativas em raciocínio matemático, compreensão de imagem de grão fino e alinhamento com preferências humanas. Os testes de referência mostram sua superioridade sobre modelos comparáveis em tarefas multimodais (como MMMU, MMMU-Pro e MathVista), superando até mesmo o modelo Qwen2-VL-72B-Instruct, de 72 bilhões de parâmetros. Também alcança desempenho de ponta em capacidades de texto puro em sua escala.

Leia mais

QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

2025-03-05
QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

Pesquisadores alcançaram um avanço no escalonamento do aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). Seu modelo QwQ-32B, com 32 bilhões de parâmetros, demonstra desempenho comparável ao DeepSeek-R1 de 671 bilhões de parâmetros (com 37 bilhões ativados), destacando a eficácia do RL aplicado a modelos base robustos. O QwQ-32B, de código aberto no Hugging Face e ModelScope sob a licença Apache 2.0, se destaca no raciocínio matemático, codificação e resolução de problemas gerais. Trabalhos futuros se concentrarão na integração de agentes com RL para raciocínio de longo prazo, expandindo os limites em direção à Inteligência Artificial Geral (AGI).

Leia mais
IA

Alibaba Lança Qwen2.5-Max: Um Modelo de Linguagem MoE em Grande Escala

2025-01-28
Alibaba Lança Qwen2.5-Max: Um Modelo de Linguagem MoE em Grande Escala

A Alibaba lançou o Qwen2.5-Max, um modelo de linguagem Mixture-of-Experts (MoE) em larga escala, pré-treinado em mais de 20 trilhões de tokens e refinado com ajuste fino supervisionado e aprendizado por reforço a partir de feedback humano. Benchmarks como MMLU-Pro, LiveCodeBench, LiveBench e Arena-Hard mostram o Qwen2.5-Max superando modelos como o DeepSeek V3. O modelo está acessível via Qwen Chat e uma API da Alibaba Cloud. Este lançamento representa um avanço significativo na escalabilidade de modelos de linguagem grandes e prepara o caminho para melhorias futuras na inteligência do modelo.

Leia mais

Qwen2.5-1M: Modelos de linguagem grandes de código aberto com comprimento de contexto de 1 milhão de tokens

2025-01-26
Qwen2.5-1M: Modelos de linguagem grandes de código aberto com comprimento de contexto de 1 milhão de tokens

A equipe Qwen lançou o Qwen2.5-1M, modelos de linguagem grandes de código aberto com suporte para até um milhão de tokens de comprimento de contexto, nas versões de 7B e 14B de parâmetros. Esses modelos superam significativamente seus equivalentes de 128K em tarefas de contexto longo, superando até mesmo o GPT-4o-mini em alguns casos. Uma estrutura de inferência de código aberto baseada em vLLM, que utiliza atenção esparsa para um aumento de velocidade de 3x a 7x, também é fornecida para implantação eficiente. O treinamento do Qwen2.5-1M empregou uma abordagem progressiva, incorporando Atenção de Bloco Duplo (DCA) e técnicas de atenção esparsa para lidar eficazmente com contextos longos.

Leia mais