Ajuste fino de LLMs sem aprendizado por reforço: Apresentando a Otimização Direta de Preferências (DPO)

2025-05-28

A plataforma Together agora suporta a Otimização Direta de Preferências (DPO), uma técnica para alinhar modelos de linguagem com preferências humanas sem aprendizado por reforço. A DPO treina modelos diretamente em dados de preferência — prompts, respostas preferidas e respostas não preferidas — resultando em assistentes de IA mais úteis, precisos e personalizados. Comparada aos métodos tradicionais de aprendizado por reforço, a DPO é mais simples, eficiente e fácil de implementar. Este post detalha o funcionamento da DPO, seu uso e exemplos de código, recomendando um processo de duas etapas: ajuste fino supervisionado (SFT) seguido de refinamento DPO.

Leia mais

DeepCoder-14B: Modelo de raciocínio de código de código aberto que compete com o o3-mini da OpenAI

2025-04-09
DeepCoder-14B: Modelo de raciocínio de código de código aberto que compete com o o3-mini da OpenAI

A Agentica e a Together AI lançaram o DeepCoder-14B-Preview, um modelo de raciocínio de código ajustado por meio de RL distribuído a partir do Deepseek-R1-Distilled-Qwen-14B. Alcançando uma impressionante precisão de 60,6% Pass@1 no LiveCodeBench, ele compete com o o3-mini da OpenAI, usando apenas 14B de parâmetros. O projeto disponibiliza em código aberto seu conjunto de dados, código, logs de treinamento e otimizações do sistema, mostrando uma receita de treinamento robusta construída em dados de alta qualidade e melhorias algorítmicas para GRPO. Esse avanço democratiza o acesso a modelos de geração de código de alto desempenho.

Leia mais