Category: IA

DeepSeek-R1: Um Modelo de IA Censurado?

2025-01-28
DeepSeek-R1: Um Modelo de IA Censurado?

DeepSeek-R1, um modelo de IA de código aberto de grande sucesso, gerou preocupações devido à censura imposta pela empresa chinesa por causa das políticas do PCC. Uma avaliação da Promptfoo revelou que o DeepSeek-R1 censurou 85% de 1.156 prompts sobre tópicos sensíveis, como independência de Taiwan e a Revolução Cultural. No entanto, essa censura mostrou-se surpreendentemente frágil e facilmente contornável usando técnicas simples, como alterar o contexto ou enquadrar perguntas em narrativas ficcionais. Esta pesquisa destaca a vulnerabilidade da censura em modelos de IA chineses e sublinha as implicações mais amplas da censura e da segurança de dados no desenvolvimento global da IA.

TokenVerse: Personalização Multi-Conceito em Modelos de Difusão de Texto para Imagem

2025-01-28
TokenVerse: Personalização Multi-Conceito em Modelos de Difusão de Texto para Imagem

O TokenVerse apresenta um novo método para personalização multi-conceito, utilizando um modelo de difusão pré-treinado de texto para imagem. Ele desfaz elementos visuais e atributos complexos de uma única imagem, permitindo a geração perfeita de combinações de conceitos extraídos de várias imagens. Ao contrário dos métodos existentes, limitados no tipo ou amplitude de conceito, o TokenVerse lida com várias imagens, cada uma com vários conceitos, suportando objetos, acessórios, materiais, pose e iluminação. Ao otimizar para direções distintas no espaço de modulação do modelo para cada palavra, ele gera imagens combinando os conceitos desejados. Experimentos demonstram sua eficácia em configurações de personalização desafiadoras.

IA

Engenheiro de Pesquisa de IA Sênior procurado pela startup SciPhi do YC

2025-01-28
Engenheiro de Pesquisa de IA Sênior procurado pela startup SciPhi do YC

A SciPhi, uma startup apoiada pelo Y Combinator, está procurando um Engenheiro de Pesquisa de IA para impulsionar avanços em pesquisa e recuperação avançadas com seu sistema R2R. O candidato ideal terá um PhD ou experiência equivalente e paixão por raciocínio, recuperação e experimentação. Ele irá prototipar um sistema baseado em raciocínio combinando tecnologias como R1 e modelos de linguagem grandes (Claude/Gemini/4o) para interpretar milhões de documentos, destilando métodos bem-sucedidos em modelos menores para implantação eficiente. Esta é uma chance de construir um sistema de recuperação que realmente "pensa".

DeepSeek v3: Melhorias Significativas na Arquitetura Transformer

2025-01-28
DeepSeek v3: Melhorias Significativas na Arquitetura Transformer

O DeepSeek v3 alcança desempenho de ponta em benchmarks com uma quantidade de computação significativamente menor do que modelos comparáveis. Isso se deve a melhorias arquitetônicas importantes: A Atenção Latente Multi-cabeça (MLA) reduz drasticamente o tamanho do cache KV sem sacrificar a qualidade do modelo; o MoE (Mixture-of-Experts) aprimorado aborda o colapso de roteamento por meio de balanceamento de carga sem perda auxiliar e especialistas compartilhados; e a previsão multi-token aumenta a eficiência do treinamento e a velocidade de inferência. Essas melhorias demonstram uma compreensão profunda da arquitetura Transformer e apontam o caminho para modelos de linguagem amplos.

IA

Pesquisadores de Berkeley replicam tecnologia central do DeepSeek R1 por apenas US$ 30

2025-01-28
Pesquisadores de Berkeley replicam tecnologia central do DeepSeek R1 por apenas US$ 30

Uma equipe de IA de Berkeley replicou a tecnologia central do DeepSeek R1-Zero por menos de US$ 30, demonstrando raciocínio sofisticado em um modelo de linguagem pequeno (1,5 bilhão de parâmetros). Usando o jogo de contagem regressiva como referência, eles mostraram que mesmo modelos modestos podem desenvolver estratégias complexas de resolução de problemas por meio de aprendizado por reforço, alcançando desempenho comparável a sistemas maiores. Essa descoberta democratiza a pesquisa em IA, provando que avanços significativos não exigem recursos massivos.

DeepSeek desafia Altman: Modelo de IA de US$ 5,6 milhões abala o mercado

2025-01-28
DeepSeek desafia Altman: Modelo de IA de US$ 5,6 milhões abala o mercado

Sam Altman, CEO da OpenAI, afirmou que startups de IA com apenas US$ 10 milhões eram 'completamente sem esperança' de competir com a OpenAI. No entanto, o surgimento da DeepSeek, uma empresa chinesa de IA, desafia essa afirmação. O modelo inovador da DeepSeek, r1, foi treinado por apenas US$ 5,6 milhões, provando que a declaração de Altman estava incorreta e enviando ondas de choque pela indústria. O próprio Altman elogiou a conquista da DeepSeek, destacando o ritmo acelerado do desenvolvimento da IA e a disrupção inesperada de jogadores improváveis.

IA

Edição de Imagens sem Treinamento: Stable Flow Revoluciona o Campo

2025-01-28
Edição de Imagens sem Treinamento: Stable Flow Revoluciona o Campo

Stable Flow é um método de edição de imagens sem treinamento que utiliza o modelo Diffusion Transformer (DiT). Ele consegue realizar várias operações de edição de imagens, incluindo edição não rígida, adição de objetos, remoção de objetos e edição de cena global, injetando seletivamente recursos de atenção. Ao contrário dos modelos baseados em UNet, o DiT não possui uma estrutura de síntese de grosseiro para fino. Os pesquisadores propõem um método automático para identificar as "camadas vitais" cruciais para a formação da imagem dentro do DiT. Injetando recursos da trajetória de geração da imagem de origem na trajetória da imagem editada, o Stable Flow permite edições consistentes e estáveis. Além disso, ele introduz um método aprimorado de inversão de imagem para edição de imagens reais. Experimentos demonstram a eficácia do Stable Flow em diversas aplicações.

Alibaba Lança Qwen2.5-Max: Um Modelo de Linguagem MoE em Grande Escala

2025-01-28
Alibaba Lança Qwen2.5-Max: Um Modelo de Linguagem MoE em Grande Escala

A Alibaba lançou o Qwen2.5-Max, um modelo de linguagem Mixture-of-Experts (MoE) em larga escala, pré-treinado em mais de 20 trilhões de tokens e refinado com ajuste fino supervisionado e aprendizado por reforço a partir de feedback humano. Benchmarks como MMLU-Pro, LiveCodeBench, LiveBench e Arena-Hard mostram o Qwen2.5-Max superando modelos como o DeepSeek V3. O modelo está acessível via Qwen Chat e uma API da Alibaba Cloud. Este lançamento representa um avanço significativo na escalabilidade de modelos de linguagem grandes e prepara o caminho para melhorias futuras na inteligência do modelo.

Algoritmos de Aprendizado por Reforço: Um Guia Abrangente

2025-01-28
Algoritmos de Aprendizado por Reforço: Um Guia Abrangente

Este artigo fornece uma visão geral abrangente dos algoritmos de aprendizado por reforço, começando com a iteração de valor e política fundamentais, progredindo para métodos de Monte Carlo, aprendizado por diferença temporal, métodos baseados em valor e métodos de gradiente de política. Ele aprofunda algoritmos avançados como Deep Q-Networks (DQN), TRPO e PPO. O artigo usa uma abordagem problema-solução, explicando sistematicamente as ideias centrais e as melhorias de vários algoritmos, tornando-o uma referência valiosa para o campo de aprendizado por reforço.

IA

Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

2025-01-28
Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

As impressionantes capacidades de raciocínio do modelo DeepSeek-R1 cativaram a comunidade de IA, mas seus detalhes de treinamento permanecem não divulgados. O projeto Open-R1 visa reproduzir completamente o DeepSeek-R1 em código aberto, incluindo conjuntos de dados e pipeline de treinamento. Isso envolverá a destilação de um conjunto de dados de raciocínio de alta qualidade do DeepSeek-R1, a replicação de seu processo de treinamento de aprendizado por reforço puro e a exploração de métodos de treinamento em várias etapas. O objetivo final é criar um modelo de raciocínio transparente e reprodutível, impulsionando avanços na comunidade de código aberto.

IA

A Valoração de US$ 157 Bilhões da OpenAI: Uma Bolha de IA?

2025-01-28
A Valoração de US$ 157 Bilhões da OpenAI: Uma Bolha de IA?

A rodada recente de financiamento maciço da OpenAI, resultando em uma avaliação de US$ 157 bilhões, gerou debates. O autor Ashu Garg argumenta que essa avaliação superestima o valor futuro da OpenAI. Ele aponta para os altos custos de computação da OpenAI, a perda de talentos e um modelo de negócios insustentável. Em contraste, empresas como o Meta estão construindo ecossistemas de IA robustos por meio de estratégias de código aberto, alcançando custos operacionais mais baixos. Garg prevê que os verdadeiros vencedores em IA serão startups que se concentram em resolver problemas específicos do setor com aplicativos de IA, em vez daquelas que constroem modelos de uso geral.

Alinhamento de IA: Uma Tarefa Impossível?

2025-01-28
Alinhamento de IA: Uma Tarefa Impossível?

O surgimento de grandes modelos de linguagem (LLMs) trouxe preocupações de segurança, como ameaças e reescrita de código. Os pesquisadores estão tentando orientar o comportamento da IA para se alinhar aos valores humanos por meio do "alinhamento", mas o autor argumenta que isso é quase impossível. A complexidade dos LLMs supera em muito o xadrez, com um número quase infinito de funções aprendíveis, tornando os testes exaustivos impossíveis. O artigo do autor prova que, mesmo com objetivos cuidadosamente projetados, não se pode garantir que os LLMs não irão desviar. Resolver verdadeiramente a segurança da IA requer uma abordagem societal, estabelecendo mecanismos semelhantes às regras da sociedade humana para restringir o comportamento da IA.

API de Citações da Anthropic combate alucinações no Claude

2025-01-28
API de Citações da Anthropic combate alucinações no Claude

A Anthropic lançou uma nova API de Citações que integra a Geração Aumentada por Recuperação (RAG) diretamente em seus modelos Claude. Isso combate as alucinações de IA vinculando diretamente as respostas a documentos de origem. Os desenvolvedores podem adicionar documentos ao contexto do Claude, permitindo que ele cite passagens específicas usadas na geração de respostas. Testes internos mostraram uma melhoria de 15% na precisão de recuperação. Os primeiros adotantes, como Thomson Reuters e Endex, relatam resultados positivos, incluindo redução de confabulações e aumento de referências. Embora sejam necessárias pesquisas adicionais, isso representa um passo significativo em direção a uma IA mais confiável.

IA

DeepSeek-R1: Um LLM de código aberto que consegue raciocinar

2025-01-27
DeepSeek-R1: Um LLM de código aberto que consegue raciocinar

DeepSeek-R1 é um modelo de linguagem grande (LLM) de última geração que possui capacidades de raciocínio impressionantes. Ao contrário dos LLMs típicos que simplesmente preveem a próxima palavra, o DeepSeek-R1 gera 'tokens de pensamento' para resolver problemas sistematicamente. Seu treinamento envolve três etapas: primeiro, um modelo base é treinado em conjuntos de dados massivos; segundo, ajuste fino supervisionado usando 600.000 exemplos de raciocínio de cadeia de pensamento longa gerados por um modelo de raciocínio especializado; e, finalmente, aprendizado por reforço para aprimorar o desempenho de tarefas de raciocínio e não raciocínio. O sucesso do DeepSeek-R1 demonstra que a combinação de modelos base de alta qualidade com tarefas de raciocínio automaticamente verificáveis reduz significativamente a dependência de dados rotulados, abrindo caminho para avanços futuros em LLMs.

IA

Meta AI agora usa seus dados para respostas personalizadas: preocupações com a privacidade?

2025-01-27
Meta AI agora usa seus dados para respostas personalizadas: preocupações com a privacidade?

O Meta AI recebeu uma atualização, utilizando dados do Facebook e do Instagram para personalizar as respostas. O AI agora pode se lembrar de detalhes de conversas anteriores e adaptar recomendações com base nas preferências do usuário, como restrições alimentares. Por exemplo, ele pode criar histórias de dormir personalizadas com base nas informações do perfil do Facebook e no histórico de navegação no Instagram. Embora o Meta afirme que os usuários podem excluir as memórias, a atualização levanta preocupações sobre privacidade, especialmente considerando o baixo nível geral de confiança no tratamento de dados do Meta.

IA

Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

2025-01-27
Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

A DeepSeek apresenta o Janus-Pro-7B, uma nova estrutura auto-regressiva que unifica a compreensão e a geração multimodais. Ao contrário das abordagens anteriores, o Janus-Pro desacopla inteligentemente a codificação visual, permitindo o processamento eficiente em uma única arquitetura de transformador. Esse desacoplamento não apenas resolve o conflito entre os papéis do codificador visual na compreensão e geração, mas também melhora a flexibilidade da estrutura. O Janus-Pro supera os modelos unificados anteriores e iguala ou excede o desempenho de modelos específicos de tarefas. Sua simplicidade, alta flexibilidade e eficácia o tornam um forte candidato para modelos multimodais unificados de próxima geração.

IA

Janus: Relatório Técnico de um Poderoso Modelo de IA

2025-01-27
Janus: Relatório Técnico de um Poderoso Modelo de IA

A DeepSeek AI lançou um relatório técnico detalhando seu modelo de IA Janus, cobrindo sua arquitetura, desempenho e aplicações. O relatório, disponível em PDF, oferece especificações técnicas aprofundadas e é ideal para profissionais de IA. Janus demonstra um potencial significativo, sugerindo uma possível mudança de paradigma na área da IA.

Menos conhecimento de IA, maior aceitação de IA?

2025-01-27
Menos conhecimento de IA, maior aceitação de IA?

Uma nova pesquisa revela uma descoberta surpreendente: pessoas com menos conhecimento sobre IA estão mais abertas a integrá-la em suas vidas diárias. Isso contradiz suposições comuns. O estudo descobriu maiores taxas de aceitação de IA em nações com menor alfabetização média em IA. A razão? A capacidade da IA de executar tarefas antes consideradas exclusivas de humanos cria uma sensação de admiração e espanto. Aqueles familiarizados com o funcionamento técnico da IA a veem como uma ferramenta, não como magia. A promoção da IA requer um equilíbrio entre a compreensão pública e a manutenção do entusiasmo para aproveitar totalmente seu potencial.

DeepSeek R1: Modelo de raciocínio em cadeia de pensamentos, acesso gratuito e API

2025-01-26
DeepSeek R1: Modelo de raciocínio em cadeia de pensamentos, acesso gratuito e API

DeepSeek R1 é um novo modelo e serviço que expõe o raciocínio em cadeia de pensamentos ao usuário. Você pode experimentá-lo gratuitamente em chat.deepseek.com, ou via API em platform.deepseek.com (atualmente significativamente mais barato que o OpenAI). Alternativamente, clique em 'Judge Me' para ver o que o modelo pensa sobre seu agente de usuário, recursos do navegador e cabeçalhos de localização de IP. Se você ousar.

Modelos de IA se tornam historiadores surpreendentemente bons

2025-01-26
Modelos de IA se tornam historiadores surpreendentemente bons

Os principais modelos de IA estão demonstrando capacidades notáveis na pesquisa histórica. Três estudos de caso mostram a proeza do GPT-4o, o1 e Claude Sonnet 3.5 na transcrição e tradução de textos italianos modernos antigos, na análise de um manuscrito médico mexicano do século XVIII e na geração de novas interpretações históricas. Embora existam limitações, como imprecisões factuais ocasionais, seu potencial na otimização de pesquisas, síntese de informações e sugestões de novas vias de pesquisa é inegável. Isso anuncia uma mudança transformadora na forma como a pesquisa histórica é conduzida.

Qwen2.5-1M: Modelos de linguagem grandes de código aberto com comprimento de contexto de 1 milhão de tokens

2025-01-26
Qwen2.5-1M: Modelos de linguagem grandes de código aberto com comprimento de contexto de 1 milhão de tokens

A equipe Qwen lançou o Qwen2.5-1M, modelos de linguagem grandes de código aberto com suporte para até um milhão de tokens de comprimento de contexto, nas versões de 7B e 14B de parâmetros. Esses modelos superam significativamente seus equivalentes de 128K em tarefas de contexto longo, superando até mesmo o GPT-4o-mini em alguns casos. Uma estrutura de inferência de código aberto baseada em vLLM, que utiliza atenção esparsa para um aumento de velocidade de 3x a 7x, também é fornecida para implantação eficiente. O treinamento do Qwen2.5-1M empregou uma abordagem progressiva, incorporando Atenção de Bloco Duplo (DCA) e técnicas de atenção esparsa para lidar eficazmente com contextos longos.

Qwen 2.5 da Alibaba: LLM com contexto de 1 milhão de tokens

2025-01-26

A Alibaba lançou uma atualização significativa para seu modelo de linguagem grande de código aberto, o Qwen 2.5, com uma janela de contexto impressionante de 1 milhão de tokens! Isso é alcançado por meio de uma nova técnica chamada Dual Chunk Attention. Dois modelos estão disponíveis no Hugging Face: versões de 7B e 14B de parâmetros, ambas exigindo VRAM significativa – pelo menos 120 GB para o modelo de 7B e 320 GB para o modelo de 14B. Embora possam ser usados para tarefas mais curtas, a Alibaba recomenda o uso de sua estrutura vLLM personalizada. Versões quantizadas GGUF estão surgindo, oferecendo tamanhos menores, mas podem existir problemas de compatibilidade com comprimentos de contexto completos. Um blogueiro tentou executar a versão GGUF em um Mac usando Ollama, encontrando alguns desafios e prometendo uma atualização futura.

LLMs falham em um quebra-cabeça de xadrez simples: um teste curioso

2025-01-26
LLMs falham em um quebra-cabeça de xadrez simples: um teste curioso

O autor testa vários LLMs novos com um quebra-cabeça de xadrez simples que apresenta subpromoção e a regra de 50 movimentos. Apesar da orientação, a maioria dos LLMs falha em resolvê-lo, destacando as limitações no raciocínio lógico e no conhecimento específico do domínio. Este teste rápido serve como um benchmark, provocando discussões sobre se os LLMs podem algum dia atingir o nível de mestre no xadrez sem treinamento especializado. A simplicidade do quebra-cabeça e o foco em uma técnica menos comum o tornam uma sonda perspicaz nas capacidades do LLM.

Agente de IA baseado em inferência bayesiana alcança avanço no desafio Atari 10k

2025-01-26
Agente de IA baseado em inferência bayesiana alcança avanço no desafio Atari 10k

O motor de IA Genius da VERSES alcançou um avanço significativo no desafio Atari 10k. Superando modelos de IA de ponta baseados em aprendizado de reforço profundo, o Genius igualou ou superou o desempenho humano em vários jogos Atari usando apenas 10% dos dados e drasticamente menos poder computacional. Essa hiper-eficiência decorre de sua estrutura única de inferência bayesiana e inferência ativa, mostrando capacidades superiores de eficiência de amostra e aprendizado contínuo. Isso marca um passo significativo em direção a uma IA altamente eficiente, confiável e explicável.

Modelo de código aberto R1 abala o mundo da IA: Desenvolvimento acelerado!

2025-01-26
Modelo de código aberto R1 abala o mundo da IA: Desenvolvimento acelerado!

A paisagem da IA está explodindo com novos modelos. O modelo de raciocínio de código aberto R1 da DeepSeek, iguala o desempenho do modelo fechado o1 da OpenAI, mas a uma fração do custo, enviando ondas de choque pela indústria. O R1 valida as abordagens o1 e o3 da OpenAI e revela novas tendências: a importância diminuída do pré-treinamento e o surgimento de leis de dimensionamento do tempo de inferência, redução de tamanho de modelos, leis de dimensionamento de aprendizado por reforço e leis de dimensionamento de destilação de modelos, todas acelerando o desenvolvimento da IA. A natureza de código aberto do R1 intensifica a competição EUA-China, destacando as implicações geopolíticas maciças do rápido progresso da IA.

IA

A Ascensão do Lixo de IA: Como Contratar e Lucrar

2025-01-26
A Ascensão do Lixo de IA: Como Contratar e Lucrar

O blogueiro Ben Congdon observa a proliferação de conteúdo de baixa qualidade gerado por IA, que ele chama de "lixo de IA", na internet. Embora pareça convincente à primeira vista, uma inspeção mais detalhada revela sua natureza formulaica e falta de originalidade. Ele argumenta contra copiar e colar diretamente o conteúdo gerado por IA, sugerindo que os criadores devem usar ferramentas de IA para assistência, mas editar meticulosamente e manter uma voz pessoal única. Ele também propõe que a criação de conteúdo de alta qualidade e a construção de uma marca pessoal são essenciais para permanecer competitivo na era da IA, e que influenciar os conjuntos de dados de treinamento de IA pode até moldar a direção futura da IA.

O autoproclamado 'primeiro engenheiro de software de IA' falha miseravelmente em testes do mundo real

2025-01-26
O autoproclamado 'primeiro engenheiro de software de IA' falha miseravelmente em testes do mundo real

Devin, anunciado como o primeiro engenheiro de software de IA, ficou aquém das expectativas em avaliações recentes. Apesar das alegações de construção e implantação de aplicativos de ponta a ponta e correção autônoma de bugs, Devin obteve sucesso em apenas 3 de 20 tarefas. Os testadores descobriram que Devin teve dificuldades com tarefas simples, ficando preso em becos sem saída técnicos e buscando soluções impossíveis. Embora ofereça uma experiência de usuário polida, seu sucesso pouco frequente e tendência a perder tempo com objetivos inatingíveis destacam as limitações da tecnologia de IA atual e levantam preocupações sobre o exagero em torno das ferramentas de IA.

Tokens Anômalos em DeepSeek: Um Catálogo de Falhas

2025-01-25
Tokens Anômalos em DeepSeek: Um Catálogo de Falhas

Um pesquisador descobriu uma série de 'tokens anômalos' no modelo de linguagem grande de código aberto DeepSeek-V3 e r1. Esses tokens, quando inseridos, fazem com que o modelo apresente comportamentos estranhos, como substituir palavras por caracteres Unicode incomuns, siglas ou emojis. O pesquisador testou sistematicamente cada token do vocabulário do DeepSeek, identificando e categorizando essas falhas. Alguns tokens, chamados de 'tokens fragmentados', só mostram anomalias em contextos específicos. Outros, como 'Nameeee' e 'EDMFunc', produzem substituições peculiares de forma consistente. 'Nameeee' frequentemente resulta em palavras ou símbolos relacionados a 'M', enquanto 'EDMFunc' prefere palavras que começam com 'H' e nomes japoneses. Vários tokens anômalos não ingleses, principalmente do Cebuano e outras línguas filipinas, também foram encontrados. Tokens especiais como '<|end of thinking|>' podem ainda interromper a funcionalidade do modelo. Esta pesquisa oferece insights valiosos sobre o funcionamento interno dos LLMs e abre caminho para investigações futuras.

Construindo um Cérebro de Silício: O Futuro da Neurociência

2025-01-25
Construindo um Cérebro de Silício: O Futuro da Neurociência

Pesquisadores da UCSF estão usando IA e tecnologias de neuroimagem de ponta para construir um 'cérebro de silício' que imita a atividade cerebral humana. Ao integrar dados de várias técnicas de varredura cerebral (como fMRI e sondas neuropixel), juntamente com dados de texto, fala e comportamento, eles estão criando uma rede neural artificial que replica padrões de atividade cerebral humana. Essa pesquisa promete revolucionar as interfaces cérebro-computador, permitindo dispositivos que restauram a fala ou o movimento sem calibração extensa e abrindo novas vias para o diagnóstico e tratamento de distúrbios neuropsiquiátricos. Considerações éticas, como privacidade de dados e uso indevido potencial, também estão sendo abordadas.

DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

2025-01-25
DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

A DeepSeek-AI apresenta seus modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como etapa preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero emerge naturalmente com diversos comportamentos de raciocínio poderosos e intrigantes. No entanto, ele encontra desafios como pouca legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar ainda mais o desempenho do raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em várias etapas e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos como código aberto o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.

1 2 36 37 38 40 42 43 44 49 50