Aprendizaje por Refuerzo Sin Conexión Mejora el Razonamiento en Múltiples Pasos de los LLMs
Los investigadores presentan OREO, un método de aprendizaje por refuerzo sin conexión diseñado para mejorar las capacidades de razonamiento en múltiples pasos de los modelos de lenguaje grandes (LLMs). Basado en el aprendizaje por refuerzo de entropía máxima, OREO aprende conjuntamente un modelo de política y una función de valor optimizando la ecuación de Bellman suave. Esto resuelve las limitaciones de la Optimización Directa de Preferencias (DPO) en el razonamiento en múltiples pasos, específicamente la necesidad de datos de preferencia emparejados extensos y el desafío de la asignación de crédito eficaz. Los experimentos demuestran la superioridad de OREO sobre los métodos de aprendizaje sin conexión existentes en los puntos de referencia que involucran razonamiento matemático y control de agentes encarnados.