Ajustement fin des LLM sans apprentissage par renforcement : présentation de l’optimisation directe des préférences (DPO)
La plateforme Together prend désormais en charge l’optimisation directe des préférences (DPO), une technique permettant d’aligner les modèles linguistiques sur les préférences humaines sans apprentissage par renforcement. La DPO entraîne les modèles directement sur des données de préférence — invites, réponses préférées et réponses non préférées — ce qui donne des assistants IA plus utiles, précis et personnalisés. Comparée aux méthodes traditionnelles d’apprentissage par renforcement, la DPO est plus simple, plus efficace et plus facile à mettre en œuvre. Cet article détaille le fonctionnement de la DPO, son utilisation et des exemples de code, en recommandant un processus en deux étapes : ajustement fin supervisé (SFT) suivi d’un raffinement DPO.