Ajuste fino de LLMs sem aprendizado por reforço: Apresentando a Otimização Direta de Preferências (DPO)

2025-05-28

A plataforma Together agora suporta a Otimização Direta de Preferências (DPO), uma técnica para alinhar modelos de linguagem com preferências humanas sem aprendizado por reforço. A DPO treina modelos diretamente em dados de preferência — prompts, respostas preferidas e respostas não preferidas — resultando em assistentes de IA mais úteis, precisos e personalizados. Comparada aos métodos tradicionais de aprendizado por reforço, a DPO é mais simples, eficiente e fácil de implementar. Este post detalha o funcionamento da DPO, seu uso e exemplos de código, recomendando um processo de duas etapas: ajuste fino supervisionado (SFT) seguido de refinamento DPO.