Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Ajuste fino de LLMs sem aprendizado por reforço: Apresentando a Otimização Direta de Preferências (DPO)

2025-05-28

A plataforma Together agora suporta a Otimização Direta de Preferências (DPO), uma técnica para alinhar modelos de linguagem com preferências humanas sem aprendizado por reforço. A DPO treina modelos diretamente em dados de preferência — prompts, respostas preferidas e respostas não preferidas — resultando em assistentes de IA mais úteis, precisos e personalizados. Comparada aos métodos tradicionais de aprendizado por reforço, a DPO é mais simples, eficiente e fácil de implementar. Este post detalha o funcionamento da DPO, seu uso e exemplos de código, recomendando um processo de duas etapas: ajuste fino supervisionado (SFT) seguido de refinamento DPO.

(www.together.ai)

IA Ajuste fino de LLM