L'apprentissage par renforcement hors ligne améliore le raisonnement en plusieurs étapes des LLMs

2024-12-23
L'apprentissage par renforcement hors ligne améliore le raisonnement en plusieurs étapes des LLMs

Les chercheurs présentent OREO, une méthode d'apprentissage par renforcement hors ligne conçue pour améliorer les capacités de raisonnement en plusieurs étapes des grands modèles de langage (LLMs). S'appuyant sur l'apprentissage par renforcement à entropie maximale, OREO apprend conjointement un modèle de politique et une fonction de valeur en optimisant l'équation de Bellman douce. Cela résout les limitations de l'optimisation directe des préférences (DPO) dans le raisonnement en plusieurs étapes, notamment le besoin de données de préférence appariées étendues et le défi de l'attribution de crédit efficace. Les expériences montrent la supériorité d'OREO par rapport aux méthodes d'apprentissage hors ligne existantes sur les benchmarks impliquant le raisonnement mathématique et le contrôle d'agent incarné.