Ajustement fin des LLM sans apprentissage par renforcement : présentation de l’optimisation directe des préférences (DPO)

2025-05-28

La plateforme Together prend désormais en charge l’optimisation directe des préférences (DPO), une technique permettant d’aligner les modèles linguistiques sur les préférences humaines sans apprentissage par renforcement. La DPO entraîne les modèles directement sur des données de préférence — invites, réponses préférées et réponses non préférées — ce qui donne des assistants IA plus utiles, précis et personnalisés. Comparée aux méthodes traditionnelles d’apprentissage par renforcement, la DPO est plus simple, plus efficace et plus facile à mettre en œuvre. Cet article détaille le fonctionnement de la DPO, son utilisation et des exemples de code, en recommandant un processus en deux étapes : ajustement fin supervisé (SFT) suivi d’un raffinement DPO.

Lire plus

DeepCoder-14B : Modèle de raisonnement de code open source rivalisant avec le o3-mini d'OpenAI

2025-04-09
DeepCoder-14B : Modèle de raisonnement de code open source rivalisant avec le o3-mini d'OpenAI

Agentica et Together AI ont publié DeepCoder-14B-Preview, un modèle de raisonnement de code optimisé via un RL distribué à partir de Deepseek-R1-Distilled-Qwen-14B. Atteignant une précision impressionnante de 60,6 % Pass@1 sur LiveCodeBench, il rivalise avec le o3-mini d'OpenAI, avec seulement 14 B de paramètres. Le projet open-source son jeu de données, son code, ses journaux d'entraînement et ses optimisations système, montrant une recette d'entraînement robuste basée sur des données de haute qualité et des améliorations algorithmiques de GRPO. Cette avancée démocratise l'accès aux modèles de génération de code haute performance.

Lire plus