Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Ajuste fino de LLMs sem aprendizado por reforço: Apresentando a Otimização Direta de Preferências (DPO)

2025-05-28

A plataforma Together agora suporta a Otimização Direta de Preferências (DPO), uma técnica para alinhar modelos de linguagem com preferências humanas sem aprendizado por reforço. A DPO treina modelos diretamente em dados de preferência — prompts, respostas preferidas e respostas não preferidas — resultando em assistentes de IA mais úteis, precisos e personalizados. Comparada aos métodos tradicionais de aprendizado por reforço, a DPO é mais simples, eficiente e fácil de implementar. Este post detalha o funcionamento da DPO, seu uso e exemplos de código, recomendando um processo de duas etapas: ajuste fino supervisionado (SFT) seguido de refinamento DPO.

2025-04-09

DeepCoder-14B: Modelo de raciocínio de código de código aberto que compete com o o3-mini da OpenAI

A Agentica e a Together AI lançaram o DeepCoder-14B-Preview, um modelo de raciocínio de código ajustado por meio de RL distribuído a partir do Deepseek-R1-Distilled-Qwen-14B. Alcançando uma impressionante precisão de 60,6% Pass@1 no LiveCodeBench, ele compete com o o3-mini da OpenAI, usando apenas 14B de parâmetros. O projeto disponibiliza em código aberto seu conjunto de dados, código, logs de treinamento e otimizações do sistema, mostrando uma receita de treinamento robusta construída em dados de alta qualidade e melhorias algorítmicas para GRPO. Esse avanço democratiza o acesso a modelos de geração de código de alto desempenho.

Ajuste fino de LLMs sem aprendizado por reforço: Apresentando a Otimização Direta de Preferências (DPO)

DeepCoder-14B: Modelo de raciocínio de código de código aberto que compete com o o3-mini da OpenAI