Qwen3-235B-A22B-Thinking-2507: Uma atualização significativa para modelos de raciocínio de código aberto

2025-07-25
Qwen3-235B-A22B-Thinking-2507: Uma atualização significativa para modelos de raciocínio de código aberto

O Qwen3-235B-A22B-Thinking-2507 representa uma atualização significativa para modelos de linguagem grandes de código aberto, com avanços inovadores em capacidades de raciocínio. Ele atinge resultados de ponta em raciocínio lógico, matemática, ciência, codificação e benchmarks acadêmicos, demonstrando desempenho superior em várias tarefas complexas. O modelo também exibe capacidades gerais aprimoradas, como seguir instruções, usar ferramentas, gerar texto e alinhamento com preferências humanas, além de compreensão aprimorada de contexto longo de 256K. Fundamentalmente, esta versão opera no 'modo de pensamento' por padrão e é altamente recomendada para tarefas de raciocínio complexas.

Leia mais

SmolLM3: Um raciocinador pequeno, multilíngue e de longo contexto

2025-07-09
SmolLM3: Um raciocinador pequeno, multilíngue e de longo contexto

SmolLM3 é um modelo de linguagem multilíngue de código aberto com 3 bilhões de parâmetros que oferece um equilíbrio impressionante entre eficiência e desempenho. Superando Llama-3.2-3B e Qwen2.5-3B em vários benchmarks, ele até compete com modelos maiores de 4 bilhões de parâmetros. Com suporte para 6 idiomas e comprimento de contexto de até 128k tokens, o SmolLM3 possui uma capacidade única de raciocínio de modo duplo (think/no_think). Além do próprio modelo, os pesquisadores estão lançando o blueprint de engenharia completo, incluindo detalhes de arquitetura, misturas de dados e metodologia de treinamento — um recurso valioso para quem está construindo ou estudando modelos nessa escala.

Leia mais

Nanonets-OCR-s: Além da OCR Tradicional com Processamento Inteligente de Documentos

2025-06-16
Nanonets-OCR-s: Além da OCR Tradicional com Processamento Inteligente de Documentos

Nanonets-OCR-s é um modelo OCR de ponta, de imagem para Markdown, que supera a extração de texto tradicional. Ele transforma documentos em Markdown estruturado com reconhecimento inteligente de conteúdo e marcação semântica, ideal para processamento posterior por Modelos de Linguagem Grandes (LLMs). Recursos-chave incluem reconhecimento de equações LaTeX, descrição inteligente de imagens, detecção de assinatura, extração de marca d'água, tratamento inteligente de caixas de seleção e extração de tabelas complexas. O modelo pode ser usado por meio de transformers, vLLM ou docext.

Leia mais
IA

Penny-1.7B: Modelo de linguagem no estilo do jornal irlandês do século XIX

2025-06-02
Penny-1.7B: Modelo de linguagem no estilo do jornal irlandês do século XIX

Penny-1.7B é um modelo de linguagem causal de 1,7 bilhão de parâmetros, ajustado com otimização de política relativa de grupo (GRPO) para imitar o estilo de prosa do século XIX do Irish Penny Journal de 1840. Um modelo de recompensa distingue o texto original do jornal das traduções modernas, maximizando a autenticidade. Ideal para escrita criativa, conteúdo educacional ou pastiche estilístico em inglês irlandês da era vitoriana, mas não recomendado para verificação de fatos contemporâneos.

Leia mais
IA

Novo Modelo de IA DeepSeek-R1-0528 de 685B Parâmetros no Hugging Face

2025-05-28
Novo Modelo de IA DeepSeek-R1-0528 de 685B Parâmetros no Hugging Face

Um novo modelo de linguagem grande, DeepSeek-R1-0528, com 685 bilhões de parâmetros, foi lançado no Hugging Face. O modelo está disponível no formato Safetensors e suporta tipos de tensores, incluindo BF16, F8_E4M3 e F32. Atualmente, nenhum provedor de inferência implantou o modelo, mas sua página no Hugging Face fornece detalhes como cartão do modelo, arquivos e versões.

Leia mais
IA

Hugging Face Lança Curso Gratuito de MCP: Seu Portal para o Protocolo de Contexto de Modelo

2025-05-21
Hugging Face Lança Curso Gratuito de MCP: Seu Portal para o Protocolo de Contexto de Modelo

A Hugging Face lançou um curso gratuito de Protocolo de Contexto de Modelo (MCP) projetado para levar os alunos do nível iniciante ao nível especialista. O curso abrange a teoria, o design e a prática do MCP, juntamente com a construção de aplicativos usando os SDKs e estruturas de MCP estabelecidos. Os participantes podem obter um certificado de conclusão concluindo as tarefas e competir em desafios. O currículo também inclui unidades em colaboração com parceiros da Hugging Face, fornecendo acesso às implementações e ferramentas MCP mais recentes. Os pré-requisitos incluem uma compreensão básica de IA e LLMs, princípios de desenvolvimento de software e APIs e experiência com pelo menos uma linguagem de programação (exemplos de Python ou TypeScript fornecidos).

Leia mais
IA

Análise Crítica: O Caso Contra Agentes de IA Totalmente Autônomos

2025-02-08
Análise Crítica: O Caso Contra Agentes de IA Totalmente Autônomos

Este artigo analisa criticamente o argumento contra o desenvolvimento de agentes de IA totalmente autônomos. Embora estruturado, rigoroso e destacando riscos reais, como perigos à segurança e violações de privacidade, ele sofre de uma postura muito absoluta, uma definição vaga de 'totalmente autônomo', uma análise de risco-benefício desequilibrada e exploração insuficiente de estratégias de mitigação. Também apresenta indícios de determinismo tecnológico. Melhorias poderiam incluir o abrandamento da rejeição absoluta, o esclarecimento da definição de autonomia, o equilíbrio da análise, o desenvolvimento de estratégias de mitigação e o fortalecimento da base empírica. Em última análise, é uma contribuição valiosa para o debate contínuo sobre ética de IA, mas não uma conclusão definitiva.

Leia mais
IA

Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

2025-01-28
Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

As impressionantes capacidades de raciocínio do modelo DeepSeek-R1 cativaram a comunidade de IA, mas seus detalhes de treinamento permanecem não divulgados. O projeto Open-R1 visa reproduzir completamente o DeepSeek-R1 em código aberto, incluindo conjuntos de dados e pipeline de treinamento. Isso envolverá a destilação de um conjunto de dados de raciocínio de alta qualidade do DeepSeek-R1, a replicação de seu processo de treinamento de aprendizado por reforço puro e a exploração de métodos de treinamento em várias etapas. O objetivo final é criar um modelo de raciocínio transparente e reprodutível, impulsionando avanços na comunidade de código aberto.

Leia mais
IA

Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

2025-01-27
Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

A DeepSeek apresenta o Janus-Pro-7B, uma nova estrutura auto-regressiva que unifica a compreensão e a geração multimodais. Ao contrário das abordagens anteriores, o Janus-Pro desacopla inteligentemente a codificação visual, permitindo o processamento eficiente em uma única arquitetura de transformador. Esse desacoplamento não apenas resolve o conflito entre os papéis do codificador visual na compreensão e geração, mas também melhora a flexibilidade da estrutura. O Janus-Pro supera os modelos unificados anteriores e iguala ou excede o desempenho de modelos específicos de tarefas. Sua simplicidade, alta flexibilidade e eficácia o tornam um forte candidato para modelos multimodais unificados de próxima geração.

Leia mais
IA

DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço e suas versões destiladas

2025-01-20
DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço e suas versões destiladas

A DeepSeek lançou seus modelos de raciocínio de primeira geração, DeepSeek-R1. Treinado por meio de aprendizado por reforço em larga escala sem ajuste fino supervisionado, o DeepSeek-R1 resolve problemas como repetição infinita e baixa legibilidade presentes em seu predecessor, DeepSeek-R1-Zero, incorporando dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1 em vários benchmarks. Além disso, a DeepSeek tornou o DeepSeek-R1 e seis modelos destilados baseados em Llama e Qwen de código aberto. O DeepSeek-R1-Distill-Qwen-32B supera o OpenAI-o1-mini em vários benchmarks, estabelecendo novos resultados de ponta para modelos destilados. Esses modelos, juntamente com uma API amigável ao usuário e uma interface de bate-papo, estão disponíveis no Hugging Face.

Leia mais

Modelos de Incorporação Estática 400x Mais Rápidos com Sentence Transformers

2025-01-15
Modelos de Incorporação Estática 400x Mais Rápidos com Sentence Transformers

Esta postagem de blog apresenta um método para treinar modelos de incorporação estática que rodam de 100x a 400x mais rápido em CPU do que os modelos de incorporação de última geração, mantendo a maior parte da qualidade. Isso desbloqueia muitos casos de uso interessantes, incluindo execução em dispositivos e no navegador, computação de ponta, aplicativos de baixa potência e embutidos. Aplicamos essa receita para treinar dois modelos de incorporação extremamente eficientes: sentence-transformers/static-retrieval-mrl-en-v1 para recuperação em inglês e sentence-transformers/static-similarity-mrl-multilingual-v1 para tarefas de similaridade multilíngue.

Leia mais

ModernBERT: Uma substituição revolucionária para o BERT

2024-12-19
ModernBERT: Uma substituição revolucionária para o BERT

A Answer.AI e a LightOn apresentam o ModernBERT, uma família de modelos somente de codificador de última geração que superam o BERT em velocidade e precisão. O ModernBERT incorpora vários avanços da pesquisa recente de LLMs, possuindo um comprimento de contexto estendido (8192 tokens), processamento mais rápido e desempenho superior em vários benchmarks. Suas capacidades de recuperação de código particularmente fortes desbloqueiam novos aplicativos, como pesquisa de código em larga escala e recursos aprimorados de IDE. O ModernBERT é uma substituição direta para modelos BERT e está disponível no Hugging Face.

Leia mais

Hugging Face Spaces lança ZeroGPU: Alocação dinâmica de GPU para maior eficiência de modelos de IA

2024-12-15
Hugging Face Spaces lança ZeroGPU: Alocação dinâmica de GPU para maior eficiência de modelos de IA

O Hugging Face Spaces lançou o ZeroGPU, uma infraestrutura compartilhada que aloca dinamicamente GPUs NVIDIA A100 para otimizar o uso de GPU para modelos e demonstrações de IA. O ZeroGPU oferece acesso gratuito à GPU, suporte para várias GPUs e reduz as barreiras para a implantação de modelos de IA. Os usuários simplesmente selecionam o hardware ZeroGPU ao criar um espaço Gradio e usam o decorador `@spaces.GPU` para funções dependentes de GPU. O ZeroGPU é compatível com PyTorch e otimizado para as bibliotecas transformers e diffusers do Hugging Face, mas atualmente funciona apenas com o SDK Gradio. Contas pessoais (usuários PRO) podem criar até 10 espaços ZeroGPU, enquanto contas de organização (Hub empresarial) podem criar até 50.

Leia mais